Punto de información mutua

El Punto de Información Mutua (PIM) o Información Mutua Puntual, (IMP) (en inglés, Pointwise mutual information (PMI)),^[1] es una medida de asociación utilizada en la teoría y la estadística de la información. En contraste con la información mutua (Mutual Information, MI), que se basa en PIM, esta se refiere a los eventos individuales, mientras que MI se refiere a la media de todos los eventos posibles.

Definición[editar]

El PMI de un par de resultados x e y perteneciente a variables discretas aleatorias X e Y, cuantifican la diferencia entre la probabilidad de su coincidencia dada su distribución conjunta y sus distribuciones individuales, suponiendo independencia matemática:

\operatorname {pmi} (x;y)\equiv \log {\frac {p(x,y)}{p(x)p(y)}}=\log {\frac {p(x|y)}{p(x)}}=\log {\frac {p(y|x)}{p(y)}}.

La información mutua (MI) de las variables aleatorias X y Y es el valor esperado del PIM sobre todos los resultados posibles (con respeto a la distribución junta $p(x,y)$ )

La medida es simétrica ( $\operatorname {pmi} (x;y)=\operatorname {pmi} (y;x)$ ) Puede tomar valores positivos o negativos, pero es cero si X y Y es independiente. Note que incluso aunque PIM puede ser negativo o positivo, su resultado esperado sobre todos los acontecimientos de junta (MI) es positivo. PMI se maximiza cuando X y Y son perfectamente asociados (i.e. $p(x|y)$ $p(y|x)=1$ ), produciendo los siguientes límites:

-\infty \leq \operatorname {pmi} (x;y)\leq \min \left[-\log p(x),-\log p(y)\right].

Finalmente, $\operatorname {pmi} (x;y)$ aumentará si $p(x|y)$ es fijo pero $p(x)$ disminuye.

Aquí, un ejemplo para ilustrar:

x	y	p(x, y)
0	0	0.1
0	1	0.7
1	0	0.15
1	1	0.05

Utilizando esta tabla podemos distribuir de manera marginal para conseguir la siguiente tabla adicional para las distribuciones individuales:

p(x)	p(y)
0	0.8	0.25
1	0.2	0.75

Con este ejemplo, podemos computar cuatro valores para . $pmi(x;y)$ Utilizando logaritmo base-2:

pmi(x=0;y=0)	=	−1
pmi(x=0;y=1)	=	0.222392421
pmi(x=1;y=0)	=	1.584962501
pmi(x=1;y=1)	=	−1.584962501

(Para referencia, la información mutua entonces sería 0.214170945) $\operatorname {I} (X;Y)$

Similitudes con información mutua[editar]

El punto de información mutua tiene muchas relaciones de semejanza con la información mutua. Por ejemplo,

${\begin{aligned}\operatorname {pmi} (x;y)&=&h(x)+h(y)-h(x,y)\\&=&h(x)-h(x|y)\\&=&h(y)-h(y|x)\end{aligned}}$

Normalización de la información mutua específica[editar]

El punto de información mutua puede ser normalizada entre [-1,+1] resultando en -1 (en el límite) para nunca ocurriendo junto, 0 para independencia, y +1 para completo co-ocurrencia.

$\operatorname {npmi} (x;y)={\frac {\operatorname {pmi} (x;y)}{-\log \left[p(x,y)\right]}}$

Regla de la cadena para Información Mutua Específica[editar]

Como MI PMI sigue la regla de la cadena, es decir,^[2]

\operatorname {pmi} (x;yz)=\operatorname {pmi} (x;y)+\operatorname {pmi} (x;z|y)

Esto es fácilmente demostrado por:

{\begin{aligned}\operatorname {pmi} (x;y)+\operatorname {pmi} (x;z|y)&{}=\log {\frac {p(x,y)}{p(x)p(y)}}+\log {\frac {p(x,z|y)}{p(x|y)p(z|y)}}\\&{}=\log \left[{\frac {p(x,y)}{p(x)p(y)}}{\frac {p(x,z|y)}{p(x|y)p(z|y)}}\right]\\&{}=\log {\frac {p(x|y)p(y)p(x,z|y)}{p(x)p(y)p(x|y)p(z|y)}}\\&{}=\log {\frac {p(x,yz)}{p(x)p(yz)}}\\&{}=\operatorname {pmi} (x;yz)\end{aligned}}

Aplicaciones[editar]

En lingüística computacional, PMI ha sido usado para encontrar colocaciones y asociaciones entre palabras. Por ejemplo, los conteos de occurrencias y co-ocurrencias de las palabras en un corpus puede ser usado para aproximar las probabilidades $p(x)$ y $p(x,y)$ respectivamente. La siguiente tabla muestra pares de palabras y sus conteos de ocurrencias y co-ocurrencias los primeros 50 millones de palabras en la Wikipedia en español (descarga de octubre del 2015) filtrando aquellos pares con 1.000 o más co-ocurrencias. La tabla muestra los pares de palabras con los 10 mayores y 10 menores valores de PMI.

palabra 1	palabra 2	conteo palabra 1	conteo palabra 2	conteo de co-ocurrencias	PMI
star	wars	1.812	1.355	1.159	10,0691059068
lourdes	cardenal	2.028	2.441	1.053	9,27196636042
bellas	artes	1.431	4.747	1.213	9,09699129423
península	ibérica	5.161	2.109	1.671	8,94585899336
nuestra	señora	5.060	2.785	2.101	8,91658006959
objetos	astronómicos	5.811	1.350	1.168	8,91521662327
cabe	destacar	3.150	3.036	1.320	8,83946942863
naciones	unidas	4.937	3.411	2.250	8,80694785791
mitología	griega	2.924	2.986	1.011	8,66383370344
el	de	1'468.344	3'640.703	10.187	-2,35092918598
los	de	741.664	3'640.703	4.483	-2,48875491469
la	de	1'991.883	3'640.703	11.497	-2,53490063915
no	de	255.963	3'640.703	1.404	-2,58585866663
se	la	601.953	1'991.883	1.688	-2,65368967007
de	el	3'640.703	1'468,344	5.978	-2,88395551973
a	y	837.636	1'246.897	1.133	-2,91434699616
a	el	837.636	1'468.344	1.061	-3,14348128868
que	de	996.179	3'640.703	3.099	-3,15299855095
de	a	3'640.703	837.636	1.296	-3,85145211009

Los pares de palabras que son buenos candidatos para ser considerados como colocaciones obtienen valores altos de PMI porque la probabilidad de co-ocurrencia es solamente un poco menor que las probabilidades de ocurrencia de cada una de las palabras. Contrariamente, los pares de palabras cuyas probabilidades de ocurrencia son considerablemente mayores que su probabilidad de co-ocurrencia obtienen valores pequeños de PMI.

Referencias[editar]

↑ Kenneth Ward Church and Patrick Hanks (March 1990).
↑ Paul L. Williams.

Fano, R M (1961). "Capítulo 2". Transmisión de Información: Una Teoría Estadística de Comunicaciones. MIT Prensa, Cambridge, MA. ISBN 978-0262561693.

Enlaces externos[editar]

Demo En Rensselaer MSR Servidor (PMI los valores normalizaron son entre 0 y 1)

Datos: Q3798612

[Church1990-1] Kenneth Ward Church and Patrick Hanks (March 1990).

[2] Paul L. Williams.

[1]

[2]