Bigrama

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

Un bigrama o digrama es un grupos de dos letras, dos sílabas, o dos palabras. Los bigramas son utilizados comúnmente como base para el simple análisis estadístico de texto. Se utilizan en uno de los más exitosos modelos de lenguaje para el reconocimiento de voz.[1] Se trata de un caso especial del N-grama.

Los Bigramas ayudan a proporcionar la probabilidad condicional de una palabra dada la palabra precedente, cuando la relación de la probabilidad condicional se aplica:

 P(W_n|W_{n-1}) = { P(W_{n-1},W_n) \over P(W_{n-1}) }

Es decir, la probabilidad  P() de una palabra W_n dada la palabra precedente W_{n-1} es igual a la probabilidad de su bigrama, o la co-ocurrencia de las dos palabras P(W_{n-1},W_n), dividido por la probabilidad de que la palabra precedente.

Referencias[editar]

  1. Michael Collins. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.

Véase también[editar]