Hiperprior

En estadística bayesiana, el hiperprior es una distribución a priori sobre un hiperparámetro, es decir, sobre un parámetro de una distribución a priori.

Al igual que con el término hiperparámetro, el uso de hiper es para distinguirlo de una distribución a priori de un parámetro del modelo para el sistema subyacente. Surgen sobre todo en el uso de modelos jerárquicos.^[1]^[2]

Por ejemplo, si se utiliza una distribución beta para modelizar la distribución del parámetro p de una distribución Bernoulli, entonces:

La distribución Bernoulli (con el parámetro p) es el modelo del sistema subyacente;
p es un parámetro del sistema subyacente (distribución Bernoulli);
La distribución beta (con parámetros α y β) es la distribución a priori de p;
α y β son parámetros de la distribución a priori (distribución beta), por lo tanto hiperparámetros;
Una distribución a priori de α y β es, por tanto, una hiperprior.

En principio, se puede iterar lo anterior: si el propio hiperprior tiene hiperparámetros, éstos pueden llamarse hiperhiperparámetros, y así sucesivamente.

Análogamente, se puede llamar hiperposterior a la distribución posterior sobre el hiperparámetro y, si son de la misma familia, llamarlas hiperdistribuciones conjugadas o hiperprior conjugado. Sin embargo, esto se vuelve rápidamente muy abstracto y alejado del problema original.

Propósito

Los hiperpriores, al igual que los priores conjugados, son una conveniencia computacional: no cambian el proceso de inferencia bayesiana, sino que simplemente permiten describir y calcular más fácilmente con el prior.

Incertidumbre

En primer lugar, el uso de un hiperparámetro permite expresar incertidumbre en un hiperparámetro: tomar un prior fijo es una suposición, variar un hiperparámetro del prior permite hacer análisis de sensibilidad en esta suposición, y tomar una distribución en este hiperparámetro permite expresar incertidumbre en esta suposición: "supongamos que la a priori es de esta forma (esta familia paramétrica), pero que no estamos seguros de cuáles deben ser exactamente los valores de los parámetros".

Distribución de la mezcla

De forma más abstracta, si se utiliza un hiperprior, entonces la propia distribución a priori (sobre el parámetro del modelo subyacente) es una densidad de mezcla: es la media ponderada de las diversas distribuciones a priori (sobre diferentes hiperparámetros), siendo el hiperprior la ponderación. Esto añade posibles distribuciones adicionales (más allá de la familia paramétrica que se esté utilizando), porque las familias paramétricas de distribuciones no suelen ser conjuntos convexos - como una densidad de mezcla es una combinación convexa de distribuciones, en general se encontrará fuera de la familia. Por ejemplo, la mezcla de dos distribuciones normales no es una distribución normal: si se toman medias diferentes (suficientemente distantes) y se mezcla el 50% de cada una, se obtiene una distribución bimodal, que por tanto no es normal. De hecho, el casco convexo de las distribuciones normales es denso en todas las distribuciones, por lo que, en algunos casos, se puede aproximar arbitrariamente una prioridad dada utilizando una familia con una hiperprioridad adecuada.

Lo que hace que este enfoque sea especialmente útil es que se utilicen priores conjugadas: las priores conjugadas individuales tienen posteriores fáciles de calcular y, por tanto, una mezcla de priorizaciones conjugadas es la misma mezcla de posteriores: sólo hay que saber cómo cambia cada priorización conjugada. Utilizar una única prior conjugada puede ser demasiado restrictivo, pero utilizar una mezcla de priores conjugadas puede darnos la distribución deseada en una forma fácil de calcular. Esto es similar a descomponer una función en términos de funciones propias (véase Prior conjugada): Analogía con las funciones propias.

Sistema dinámico

Un hiperprior es una distribución en el espacio de posibles hiperparámetros. Si se utilizan priores conjugados, este espacio se conserva al pasar a los posteriors, por lo que, a medida que llegan los datos, la distribución cambia, pero permanece en este espacio: a medida que llegan los datos, la distribución evoluciona como un sistema dinámico (cada punto del espacio de hiperparámetros evoluciona hacia los hiperparámetros actualizados), convergiendo con el tiempo, al igual que converge el propio prior.

Referencias

↑ Ntzoufras, Ioannis (2009). «Bayesian Hierarchical Models». Bayesian Modelling using WinBUGS: 305-340. ISBN 978-0-470-14114-4.
↑ McElreath, Richard (2020). «Models With Memory». Statistical Rethinking : A Bayesian Course with Examples in R and Stan. CRC Press. ISBN 978-0-367-13991-9.

Lectura adicional

Bernardo, J. M.; Smith, A. F. M. (2000). Bayesian Theory. New York: Wiley

[1] Ntzoufras, Ioannis (2009). «Bayesian Hierarchical Models». Bayesian Modelling using WinBUGS: 305-340. ISBN 978-0-470-14114-4.

[2] McElreath, Richard (2020). «Models With Memory». Statistical Rethinking : A Bayesian Course with Examples in R and Stan. CRC Press. ISBN 978-0-367-13991-9.

[1]

[2]