Punto de información mutua

De Wikipedia, la enciclopedia libre

El Punto de Información Mutua (PIM) o Información Mutua Puntual, (IMP) (en inglés, Pointwise mutual information (PMI)),[1]​ es una medida de asociación utilizada en la teoría y la estadística de la información. En contraste con la información mutua (Mutual Information, MI), que se basa en PIM, esta se refiere a los eventos individuales, mientras que MI se refiere a la media de todos los eventos posibles.

Definición[editar]

El PMI de un par de resultados x e y perteneciente a variables discretas aleatorias X e Y, cuantifican la diferencia entre la probabilidad de su coincidencia dada su distribución conjunta y sus distribuciones individuales, suponiendo independencia matemática:

La información mutua (MI) de las variables aleatorias X y Y es el valor esperado del PIM sobre todos los resultados posibles (con respeto a la distribución junta )

La medida es simétrica () Puede tomar valores positivos o negativos, pero es cero si X y Y es independiente. Note que incluso aunque PIM puede ser negativo o positivo, su resultado esperado sobre todos los acontecimientos de junta (MI) es positivo. PMI se maximiza cuando X y Y son perfectamente asociados (i.e.), produciendo los siguientes límites:

Finalmente, aumentará si es fijo pero disminuye.

Aquí, un ejemplo para ilustrar:

x y p(x, y)
0 0 0.1
0 1 0.7
1 0 0.15
1 1 0.05

Utilizando esta tabla podemos distribuir de manera marginal para conseguir la siguiente tabla adicional para las distribuciones individuales:

p(x) p(y)
0 0.8 0.25
1 0.2 0.75

Con este ejemplo, podemos computar cuatro valores para . Utilizando logaritmo base-2:

pmi(x=0;y=0) = −1
pmi(x=0;y=1) = 0.222392421
pmi(x=1;y=0) = 1.584962501
pmi(x=1;y=1) = −1.584962501

(Para referencia, la información mutua entonces sería 0.214170945)

Similitudes con información mutua[editar]

El punto de información mutua tiene muchas relaciones de semejanza con la información mutua. Por ejemplo,

Normalización de la información mutua específica[editar]

El punto de información mutua puede ser normalizada entre [-1,+1] resultando en -1 (en el límite) para nunca ocurriendo junto, 0 para independencia, y +1 para completo co-ocurrencia.

Regla de la cadena para Información Mutua Específica[editar]

Como MI PMI sigue la regla de la cadena, es decir,[2]

Esto es fácilmente demostrado por:

Aplicaciones[editar]

En lingüística computacional, PMI ha sido usado para encontrar colocaciones y asociaciones entre palabras. Por ejemplo, los conteos de occurrencias y co-ocurrencias de las palabras en un corpus puede ser usado para aproximar las probabilidades y respectivamente. La siguiente tabla muestra pares de palabras y sus conteos de ocurrencias y co-ocurrencias los primeros 50 millones de palabras en la Wikipedia en español (descarga de octubre del 2015) filtrando aquellos pares con 1.000 o más co-ocurrencias. La tabla muestra los pares de palabras con los 10 mayores y 10 menores valores de PMI.

palabra 1 palabra 2 conteo palabra 1 conteo palabra 2 conteo de co-ocurrencias PMI
star wars 1.812 1.355 1.159 10,0691059068
lourdes cardenal 2.028 2.441 1.053 9,27196636042
bellas artes 1.431 4.747 1.213 9,09699129423
península ibérica 5.161 2.109 1.671 8,94585899336
nuestra señora 5.060 2.785 2.101 8,91658006959
objetos astronómicos 5.811 1.350 1.168 8,91521662327
cabe destacar 3.150 3.036 1.320 8,83946942863
naciones unidas 4.937 3.411 2.250 8,80694785791
mitología griega 2.924 2.986 1.011 8,66383370344
el de 1'468.344 3'640.703 10.187 -2,35092918598
los de 741.664 3'640.703 4.483 -2,48875491469
la de 1'991.883 3'640.703 11.497 -2,53490063915
no de 255.963 3'640.703 1.404 -2,58585866663
se la 601.953 1'991.883 1.688 -2,65368967007
de el 3'640.703 1'468,344 5.978 -2,88395551973
a y 837.636 1'246.897 1.133 -2,91434699616
a el 837.636 1'468.344 1.061 -3,14348128868
que de 996.179 3'640.703 3.099 -3,15299855095
de a 3'640.703 837.636 1.296 -3,85145211009

Los pares de palabras que son buenos candidatos para ser considerados como colocaciones obtienen valores altos de PMI porque la probabilidad de co-ocurrencia es solamente un poco menor que las probabilidades de ocurrencia de cada una de las palabras. Contrariamente, los pares de palabras cuyas probabilidades de ocurrencia son considerablemente mayores que su probabilidad de co-ocurrencia obtienen valores pequeños de PMI.

Referencias[editar]

  1. Kenneth Ward Church and Patrick Hanks (March 1990).
  2. Paul L. Williams.
  • Fano, R M (1961). "Capítulo 2". Transmisión de Información: Una Teoría Estadística de Comunicaciones. MIT Prensa, Cambridge, MA. ISBN 978-0262561693.

Enlaces externos[editar]