Entropía (información)
En el ámbito de la teoría de la información la entropía , también llamada entropía de la información y entropía de Shannon (en honor a Claude E. Shannon), mide la incertidumbre de una fuente de información.
La Entropía también se puede considerar como la cantidad de información promedio que contienen los símbolos usados. Los símbolos con menor probabilidad son los que aportan mayor información; por ejemplo, si se considera como sistema de símbolos a las palabras en un texto, palabras frecuentes como "que", "el", "a" aportan poca información. Mientras que palabras menos frecuentes como "corren", "niño", "perro" aportan más información. Si de un texto dado borramos un "que", seguramente no afectará a la comprensión y se sobreentenderá, no siendo así si borramos la palabra "niño" del mismo texto original. Cuando todos los símbolos son igualmente probables (distribución de probabilidad plana), todos aportan información relevante y la entropía es máxima.
El concepto de entropía es usado en termodinámica, mecánica estadística y teoría de la información. En todos los casos la entropía se concibe como una "medida del desorden" o la "peculiaridad de ciertas combinaciones". La Entropía puede ser considerada como una medida de la incertidumbre y de la información necesarias para, en cualquier proceso, poder acotar, reducir o eliminar la incertidumbre. Resulta que el concepto de información y el de entropía están ampliamente relacionados entre sí, aunque se necesitaron años de desarrollo de la mecánica estadística y de la teoría de la información antes de que esto fuera percibido.
Contenido |
[editar] Relación con la entropía termodinámica
La entropía de la teoría de la información está estrechamente relacionada con la entropía termodinámica. En la termodinámica se estudia un sistema de partículas cuyos estados X (usualmente posición y velocidad) tienen una cierta distribución de probabilidad, pudiendo ocupar varios microestados posibles (equivalentes a los símbolos en la teoría de la información). La entropía termodinámica es igual a la entropía de la teoría de la información de esa distribución (medida usando el logaritmo neperiano) multiplicada por la constante de Boltzmann k, la cual permite pasar de nats (unidad semejante al bit) a J/K. Cuando todos los microestados son igualmente probables, la entropía termodinámica toma la forma k log(N). En un sistema aislado, la interacción entre las partículas tiende a aumentar su dispersión, afectando sus posiciones y sus velocidades, lo que causa que la entropía de la distribución aumente con el tiempo hasta llegar a un cierto máximo (cuando el mismo sistema es lo más homogéneo y desorganizado posible); lo que es denominado segunda ley de la termodinámica. La diferencia entre la cantidad de entropía que tiene un sistema y el máximo que puede llegar a tener se denomina neguentropía, y representa la cantidad de organización interna que tiene el sistema. A partir de esta última se puede definir la energía libre de Gibbs, la que indica la energía que puede liberar el sistema al aumentar la entropía hasta su máximo y puede ser transformada en trabajo (energía mecánica útil) usando una máquina ideal de Carnot. Cuando un sistema recibe un flujo de calor, las velocidades de las partículas aumentan, lo que dispersa la distribución y hace aumentar la entropía. Así, el flujo de calor produce un flujo de entropía en la misma dirección.
[editar] Concepto intuitivo
El concepto básico de entropía en teoría de la información tiene mucho que ver con la incertidumbre que existe en cualquier experimento o señal aleatoria. Es también la cantidad de "ruido" o "desorden" que contiene o libera un sistema. De esta forma, podremos hablar de la cantidad de información que lleva una señal.
Como ejemplo, consideremos algún texto escrito en español, codificado como una cadena de letras, espacios y signos de puntuación (nuestra señal será una cadena de caracteres). Ya que, estadísticamente, algunos caracteres no son muy comunes (por ejemplo, 'w'), mientras otros sí lo son (como la 'a'), la cadena de caracteres no será tan "aleatoria" como podría llegar a ser. Obviamente, no podemos predecir con exactitud cuál será el siguiente carácter en la cadena, y eso la haría aparentemente aleatoria. Pero es la entropía la encargada de medir precisamente esa aleatoriedad, y fue presentada por Shannon en su artículo de 1948, A Mathematical Theory of Communication ("Una teoría matemática de la comunicación", en inglés).
Shannon ofrece una definición de entropía que satisface las siguientes afirmaciones:
- La medida de información debe ser proporcional (continua). Es decir, el cambio pequeño en una de las probabilidades de aparición de uno de los elementos de la señal debe cambiar poco la entropía.
- Si todos los elementos de la señal son equiprobables a la hora de aparecer, entonces la entropía será máxima.
Ejemplos de máxima entropía: Suponiendo que estamos a la espera de un texto, por ejemplo un cable con un mensaje. En dicho cable solo se reciben las letras en minúscula de la a hasta la z, entonces si el mensaje que nos llega es "qalmnbphijcdgketrsfuvxyzwño" el cual posee una longitud de 27 caracteres , se puede decir que este mensaje llega a nosotros con la máxima entropía (o desorden posible); ya que es poco probable que se pueda pronosticar la entrada de caracteres, pues estos no se repiten ni están ordenados en una forma predecible.
[editar] Definición formal
Supongamos que un fenómeno (variable aleatoria) tiene un grado de indeterminación inicial igual a k (k estados posibles) y supongamos todos los los estados equiprobables, entonces la probabilidad p de que se dé una de esas combinaciones será 1/k. Podemos representar entonces la expresión
como:
Si ahora cada uno de los k estados tiene una probabilidad
, entonces la entropía vendrá dada por la suma ponderada de la cantidad de información[1] :
Por lo tanto, la entropía de un mensaje X, denotado por H(X), es el valor medio ponderado de la cantidad de información de los diversos estados del mensaje:
que representa una medida de la incertidumbre media acerca de una variable aleatoria y el número de bits de información.
- Nota: Observar que usamos el logaritmo en base 2 porque estamos considerando que la información se va a representar en código binario (se quiere representar con bits). Si para representar la información de la variable aleatorio usáramos valores en una base
entonces los logaritmos sería en base
.
[editar] Ejemplos
- La entropía de un mensaje M de longitud 1 carácter que utiliza el conjunto de caracteres ASCII, suponiendo una equiprobabilidad en los 256 caracteres ASCII, será:
- Supongamos que el número de estados de un mensaje es igual a 3 M1, M2 y M3 donde la probabilidad de M1 es 50%, la de M2 25% y la de M3 25%. Por tanto la entropía de la información es:
[editar] Propiedades
La entropía tiene las siguiente propiedades:
- La entropía es no negativa . Esto es evidente ya que al ser
una probabilidad entonces
. Por tanto podemos decir que
y por tanto 
Es decir, la entropía H está acotada superiormente (cuando es máxima) y no supone perdida de información.- Dado un proceso con posibles resultados {A1,..,An} con probabilidades relativas p1, ...,pn, la función
es máxima en el caso de que
. El resultado es intuitivo ya que tenemos la mayor incertidumbre del mensaje, cuando los valores posibles de la variable son equiprobables - Dado un proceso con posibles resultados {A1,..,An} con probabilidades relativas p1, ...,pn, la función
es nula en el caso de que
para todo i, excepto para una clase, tal que:
. De forma intuitiva podemos pensar que cuando uno o más estados tienen una probabilidad alta, disminuye significativamente la entropía porque, como es lógico, existe una menor incertidumbre respecto al mensaje que se recibirá.
[editar] Codificador óptimo
Un codificador óptimo es aquel que utiliza el mínimo número de bits para codificar un mensaje. Un codificador óptimo usará códigos cortos para codificar mensajes frecuentes y dejará los códigos de mayor longitud para aquellos mensajes que sean menos frecuentes. De esta forma se optimiza el rendimiento del canal o zona de almacenamiento y el sistema es eficiente en términos del número de bits para representar el mensaje.
Por ejemplo, el código Morse se aprovecha de este principio para optimizar el número de caracteres a transmitir a partir del estudio de las letras más frecuentes del alfabeto inglés. El código Morse no es un codificador óptimo pero sí asigna a las letras más frecuente código más cortos. Otro ejemplo sería el algoritmo de Huffman de codificación que sirve para compactar información[2] . Este método se basa en el codificador óptimo. Para ello lo primero que hace es recorrer toda la información para encontrar la frecuencia de los caracteres y luego a partir de esta información busca el codificador óptimo por medio de árboles binarios. Algunas técnicas de compresión como LZW o deflación no usan probabilidades de los símbolos aislados, sino que usan las probabilidades conjuntas de pequeñas secuencias de símbolos para codificar el mensaje, por lo que pueden lograr un nivel de compresión mayor.
Podemos construir un codificador óptimo basándonos en la entropía de una variable aleatoria de información X. En efecto, la entropía nos da el número medio de bits (si usamos logaritmos de base 2) necesarios para codificar el mensaje a través de un codificador óptimo y por tanto nos determina el límite máximo al que se puede comprimir un mensaje usando un enfoque símbolo a símbolo sin ninguna pérdida de información (demostrado analíticamente por Shannon), el límite de compresión (en bits) es igual a la entropía multiplicada por el largo del mensaje. Reescribiendo la ecuación de cálculo de la entropía podemos decir:
por tanto la información (usando baso 2 y por tanto en bits) que aporta un determinado valor (símbolo),
, de una variable aleatoria discreta
se define como:
Esta expresión representa el número necesario de bits para codificar el mensaje x en el codificador óptimo y por tanto la entropía también se puede considerar como una medida de la información promedio contenida en cada símbolo del mensaje.
[editar] Ejemplo
Supongamos que el número de estados de un mensaje es igual a 3 M1, M2 y M3 donde la probabilidad de M1 es 50%, la de M2 25% y la de M3 25%.
- Para M1 tenemos que
![\log_2 [1/p(M_1)])=\log_2 2= 1](//upload.wikimedia.org/wikipedia/es/math/6/c/5/6c57af3bdcefb753dfce06671de34977.png)
- Para M2 tenemos que
![\log_2 [1/p(M_2)])=\log_2 4= 2](//upload.wikimedia.org/wikipedia/es/math/4/4/4/4441117db0cf2be85ee8e540cac53611.png)
- Para M3 tenemos que
![\log_2 [1/p(M_3)])=\log_2 4= 2](//upload.wikimedia.org/wikipedia/es/math/5/2/6/526f1f579674db537f840a211fd178c1.png)
Por tanto en el codificador óptimo para transmitir M1 hará falta un bit y para M2 y M3 será necesario contar con dos bits. Por ejemplo podríamos codificar M1 con "0", M2 con "10" y M2 con "11". Usando este convenio para codificar el mensaje M1M2M1M1M3M1M2M3 usaríamos "010001101011" y por tanto 12 bits. El valor de la entropía sería:
Por tanto el codificador óptimo necesita de media 1,5 bits para codificar cualquier valor de X.
[editar] Entropía condicional
Supongamos que en vez de tener una única variable aleatoria X, existe otra variable Y dependientes entre sí, es decir el conocimiento de una (por ejemplo Y) entrega información sobre la otra (por ejemplo X). Desde el punto de vista de la entropía de la información podemos decir que la información de Y disminuirá la incertidumbre de X. Por tanto podemos decir que la entropía de X será condicional a Y. y por tanto:
Como por el teorema de Bayes tenemos que p(x,y)=p(y)p(x/y) donde p(x/y) es la probilidad de que se dé un estado de X conocida Y, podemos decir:
Este resultado es muy interesante en el campo del criptoanálisis. Si consideramos X como la variable aleatoria de la "hallar la clave de un criptograma" y como Y la variable aleatoria del "conocimiento del texto cifrado" podemos aprovechar este resultado para hallar la entropía del conocimiento de la clave una vez conocido el texto cifrado que se produce como resultado de cifrar. Tenemos la siguiente ecuación:
a la que se denota por
. Si
significa que se podrá romper el cifrado pues ya no hay incertidumbre. Este concepto de anulación nos llevará al cálculo de la distancia de unicidad.
[editar] Ejemplo
Supongamos X una variable X con cuatro estados:
todos equiprobables y por tanto
. Existe además otra variable Y con tres estados;
con probabilidades
. Se conocen además las siguientes dependecias:
- Si
entonces los posibles valores de x son 
- Si
entonces los posibles valores de x son 
- Si
entonces los posibles valores de x son 
Aplicando las fórmulas tenemos:
En este caso el conocimiento de la dependencia de X respecto Y reduce la entropía de X de 2 a 1,5.
[editar] Referencias
- Jorge Ramió Aguirre, Aplicaciones criptográficas. Libro guía de la asignatura de Seguridad Informática. Escuela Universitaria de Informática. Universidad Politécnica de Madrid. Enero 1998.
[editar] Véase también
[editar] Enlaces externos
- Una Teoría Matemática de la Comunicación (en inglés)
- Calculadora de la entropía de Shannon (en inglés)
![c_i= \log_2(k)= \log_2[1/(1/k)]=- \log_2(p)](http://upload.wikimedia.org/wikipedia/es/math/b/3/4/b3433f740dfe4647048a688a9e8e12f4.png)


entonces los logaritmos sería en base 

. Por tanto podemos decir que
y por tanto 
Es decir, la entropía H está acotada superiormente (cuando es máxima) y no supone perdida de información.
es máxima en el caso de que
. El resultado es intuitivo ya que tenemos la mayor incertidumbre del mensaje, cuando los valores posibles de la variable son equiprobables
para todo i, excepto para una clase, tal que:
. De forma intuitiva podemos pensar que cuando uno o más estados tienen una probabilidad alta, disminuye significativamente la entropía porque, como es lógico, existe una menor incertidumbre respecto al mensaje que se recibirá.![H(X)=\sum_{x}p(x) \log_2 [1/p(x)]](http://upload.wikimedia.org/wikipedia/es/math/4/a/1/4a1571644a3ab7788235e4d653c8f45e.png)

![\log_2 [1/p(M_1)])=\log_2 2= 1](http://upload.wikimedia.org/wikipedia/es/math/6/c/5/6c57af3bdcefb753dfce06671de34977.png)
![\log_2 [1/p(M_2)])=\log_2 4= 2](http://upload.wikimedia.org/wikipedia/es/math/4/4/4/4441117db0cf2be85ee8e540cac53611.png)
![\log_2 [1/p(M_3)])=\log_2 4= 2](http://upload.wikimedia.org/wikipedia/es/math/5/2/6/526f1f579674db537f840a211fd178c1.png)




entonces los posibles valores de x son
entonces los posibles valores de x son 
entonces los posibles valores de x son 


