Latent Dirichlet Allocation

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística, latent Dirichlet allocation (LDA) es un modelo generativo que permite que conjuntos de observaciones puedan ser explicados por grupos no observados que explican por qué algunas partes de los datos son similares. Por ejemplo, si las observaciones son palabras en documentos, presupone que cada documento es una mezcla de un pequeño número de categorías y la aparición de cada palabra en un documento se debe a una de las categorías a las que el documento pertenece. LDA es un ejemplo de modelo de categorías y fue presentado como un modelo en grafo para descubrir categorías por David Blei, Andrew Ng y Michael Jordan en 2002.[1]

Categorías en LDA[editar]

En LDA, cada documento puede verse como una mixtura de varias categorías. Esto es similar a probabilistic latent semantic analysis (pLSA), excepto que en LDA se asume que la distribución de categorías tiene una distribución a priori de Dirichlet. En la práctica, esto resulta en mixturas de categorías en un documento más razonables. Se ha observado, sin embargo, que el modelo pLSA es equivalente al modelo LDA bajo una distribución de Dirichlet a priori uniforme.[2]

Por ejemplo, un modelo LDA puede tener categorías que pueden ser clasificadas como GATO y PERRO. Si embargo, la clasificación es arbitraria porque la categoría que abarca esas palabras no puede ser nombrada. Además, una categoría tiene probabilidades de generar varias palabras, como leche, maullido y minino, las cuales pueden ser clasificadas e interpretadas por el espectador como "GATO". Naturalmente, la propia palabra gato tendrá alta probabilidad dada esta categoría. La categoría PERRO, asimismo, tiene probabilidades de generar cada palabra: cachorro, ladrido y hueso podrían tener alta probabilidad. Las palabras sin especial relevancia, como el (ver palabras vacías), tendrían aproximadamente la misma probabilidad entre clases (o pueden ser colocadas en una categoría separada).

Un documento está determinado por las categorías. Esta es una asunción estándar en el modelo de bolsa de palabras, y hace intercambiables a las palabras individuales.

Referencias[editar]

  1. «Latent Dirichlet allocation». Journal of Machine Learning Research 3 (4–5):  pp. pp. 993–1022. January 2003. doi:10.1162/jmlr.2003.3.4-5.993. http://jmlr.csail.mit.edu/papers/v3/blei03a.html. 
  2. Girolami, Mark; Kaban, A. (2003). «On an Equivalence between PLSI and LDA». Proceedings of SIGIR 2003. New York: Association for Computing Machinery. ISBN 1-58113-646-3.