Bigrama

De Wikipedia, la enciclopedia libre
Esta es una versión antigua de esta página, editada a las 22:08 14 jul 2019 por Aosbot (discusión · contribs.). La dirección URL es un enlace permanente a esta versión, que puede ser diferente de la versión actual.

Un bigrama o digrama es un grupos de dos letras, dos sílabas, o dos palabras. Los bigramas son utilizados comúnmente como base para el simple análisis estadístico de texto. Se utilizan en uno de los más exitosos modelos de lenguaje para el reconocimiento de voz.[1]​ Se trata de un caso especial del N-grama.

Los Bigramas ayudan a proporcionar la probabilidad condicional de una palabra dada la palabra precedente, cuando la relación de la probabilidad condicional se aplica:

Es decir, la probabilidad de una palabra dada la palabra precedente es igual a la probabilidad de su bigrama, o la co-ocurrencia de las dos palabras , dividido por la probabilidad de que la palabra precedente.

Referencias

  1. Michael Collins. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.

Véase también