Criterio de Información de Akaike

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

El criterio de información de Akaike (AIC) es una medida de la calidad relativa de un modelo estadístico, para un conjunto dado de datos. Como tal, el AIC proporciona un medio para la selección del modelo.

AIC maneja un trade-off entre la bondad de ajuste del modelo y la complejidad del modelo. Se basa en la entropía de información: se ofrece una estimación relativa de la información perdida cuando se utiliza un modelo determinado para representar el proceso que genera los datos.

AIC no proporciona una prueba de un modelo en el sentido de probar una hipótesis nula , es decir AIC puede decir nada acerca de la calidad del modelo en un sentido absoluto. Si todos los modelos candidatos encajan mal, AIC no dará ningún aviso de ello.

Definición[editar]

En el caso general, la AIC es

\mathit{AIC} = 2k - 2\ln(L)

donde k es el número de parámetros en el modelo estadístico , y L es el máximo valor de la función de probabilidad para el modelo estimado.

Dado un conjunto de modelos candidatos para los datos, el modelo preferido es el que tiene el valor mínimo en el AIC. Por lo tanto AIC no sólo recompensa la bondad de ajuste, sino también incluye una penalidad, que es una función creciente del número de parámetros estimados. Esta penalización desalienta el sobreajuste (aumentando el número de parámetros libres en el modelo mejora la bondad del ajuste, sin importar el número de parámetros libres en el proceso de generación de datos).

AIC se basa en la teoría de la información. Supongamos que los datos se generan por algún proceso desconocido f. Consideremos dos modelos candidatos para representar f: g1 and g2. Si supiéramos f, entonces podríamos encontrar la información perdida del uso de g1 para representar f calculando la divergencia de Kullback-Leibler , D KL (f ‖ g 1), de manera similar, la información perdida del uso de g 2 para representar f sería obtenido calculando D KL (f ‖ 2 g). Entonces nos volveríamos a elegir el modelo candidato que minimiza la pérdida de información.

Referencia[editar]