Latent Dirichlet Allocation

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística, Latent Dirichlet Allocation (LDA) es un modelo generativo que permite que conjuntos de observaciones puedan ser explicados por grupos no observados que explican por qué algunas partes de los datos son similares. Por ejemplo, si las observaciones son palabras en documentos, presupone que cada documento es una mezcla de un pequeño número de categorías (también denominados como tópicos) y la aparición de cada palabra en un documento se debe a una de las categorías a las que el documento pertenece. LDA es un ejemplo de modelo de categorías y fue presentado como un modelo en grafo para descubrir categorías por David Blei, Andrew Ng y Michael Jordan en 2002.[1]

Categorías en LDA[editar]

En LDA, cada documento puede verse como una mezcla de varias categorías. Esto es similar a Probabilistic Latent Semantic Analysis (pLSA), excepto que en LDA se asume que la distribución de categorías tiene una distribución a priori de Dirichlet. En la práctica, esto resulta en mezclas de categorías en un documento más razonables. Se ha observado, sin embargo, que el modelo pLSA es equivalente al modelo LDA bajo una distribución de Dirichlet a priori uniforme.[2]

La clave en LDA es que las palabras siguen una hipótesis de bolsa de palabras o, más bien que el orden no importa, que el uso de una palabra es ser parte de un tema y que comunica la misma información sin importar dónde se encuentra en el documento. Esta hipótesis dice que Juan contrató a Pedro es lo mismo que Pedro contrató a Juan. En ambos casos, el conjunto de palabras es la misma junto con la frecuencia de cada palabra. Este supuesto es necesario para que las probabilidades sean intercambiables y que permitan una mayor aplicación de métodos matemáticos. A pesar de que de vez en cuando trata frases semánticamente diferentes como la misma cosa, funciona bien en un documento general.

Por ejemplo, dentro de un cuerpo de documentos sobre la Universidad de Princeton, habrá ponencias individuales que forman parte del Departamento de Ciencias de la Computación. Es probable que haya algunas palabras que se utilizan con más frecuencia cuando se habla del Departamento de Ciencias de la Computación que de otros departamentos en el campus, tales como: computadoras, algoritmos, gráficos, datos, modelado, y redes. Otros departamentos, como Sociología pueden tener temas donde encontremos algunas palabras tales como: género, raza, edad, economía y redes.

El modelo LDA ve esto como un todo y elige los temas a partir de allí. Si los documentos se compararon de forma individual, podría ser el caso de que ciertos temas no fueron recogidos, y sólo cuando todo el cuerpo es visto se empiezan a notar ciertos tópicos. En este ejemplo, palabras como redes pueden aparecer varias veces en los documentos relativos a cualquier departamento. Esencialmente, LDA crea un modelo más realista del cuerpo, y por lo tanto, de los documentos individuales. Las palabras que aparecen con menos frecuencia en los documentos únicos, pero son comunes en muchos documentos diferentes probablemente es indicativo de que existe un tema común entre los documentos. Cuando se genera un resumen, la capacidad de recoger los matices de los tópicos del documento permiten que la información más relevante sea incluida con menos posibilidades de repetición y dar así un mejor resumen.


Referencias[editar]

  1. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (enero de 2003). «Latent Dirichlet allocation». En Lafferty, John. Journal of Machine Learning Research 3 (4–5): pp. 993–1022. doi:10.1162/jmlr.2003.3.4-5.993. 
  2. Girolami, Mark; Kaban, A. (2003). «On an Equivalence between PLSI and LDA». Proceedings of SIGIR 2003. New York: Association for Computing Machinery. ISBN 1-58113-646-3. 

Trabajos Relacionados[editar]