Clasificación de documentos

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

Se define como la tarea de asignar variables Booleanas a cada par <d_j, c_i> pertenecientes a D x C, donde D es el dominio de los documentos y C = \{c_1,...,c_n\} es una colección de categorías predefinidas. T indica archivar un documento d_j bajo c_i, mientras F indica no archivar d_j bajo c_i.

Entre las aplicaciones que encuentra la clasificación de documentos se tienen los filtros de e-mail (spam / no spam)

Enlaces externos[editar]

Publicaciones:

  • Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1–47, 2002 [1]