Bigrama

Un bigrama o digrama es un grupos de dos letras, dos sílabas, o dos palabras. Los bigramas son utilizados comúnmente como base para el simple análisis estadístico de texto. Se utilizan en uno de los más exitosos modelos de lenguaje para el reconocimiento de voz.^[1] Se trata de un caso especial del N-grama.

Los Bigramas ayudan a proporcionar la probabilidad condicional de una palabra dada la palabra precedente, cuando la relación de la probabilidad condicional se aplica:

$P(W_{n}|W_{n-1})={P(W_{n-1},W_{n}) \over P(W_{n-1})}$

Es decir, la probabilidad $P()$ de una palabra $W_{n}$ dada la palabra precedente $W_{n-1}$ es igual a la probabilidad de su bigrama, o la co-ocurrencia de las dos palabras $P(W_{n-1},W_{n})$ , dividido por la probabilidad de que la palabra precedente.

Referencias

↑ Michael Collins. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.

Véase también

N-grama

Datos: Q2773912

[1] Michael Collins. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.

[1]