Función de verosimilitud

En estadística, la función de verosimilitud (o, simplemente, verosimilitud) es una función de los parámetros de un modelo estadístico que permite realizar inferencias acerca de su valor a partir de un conjunto de observaciones.

No debe confundirse con el término probabilidad: esta permite, a partir de una serie de parámetros conocidos, realizar predicciones acerca de los valores que toma una variable aleatoria.

Fórmula

En cierto sentido, la verosimilitud es una versión inversa de la probabilidad condicional. Conocido un parámetro B, la probabilidad condicional de A es P(A|B), pero si se conoce A, pueden realizarse inferencias sobre el valor de B gracias al teorema de Bayes, según el cual

P(B\mid A)={\frac {P(A\mid B)\;P(B)}{P(A)}}.\!

La función de verosimilitud, L( b |A), definida como

L(b\mid A)=P(A\mid B=b),\!

desempeña el mismo papel bajo un enfoque no bayesiano. De hecho, lo relevante no es el valor en sí de L( b |A) sino la razón de verosimilitudes,

{\frac {L(b_{2}|A)}{L(b_{1}|A)}}\!,

que permite comparar cuanto más verosímil es el parámetro $b_{1}$ que el $b_{2}$ a la hora de explicar el evento A. De ahí que en ocasiones se entienda que la función de verosimilitud, más que una función en sí, sea la clase de funciones

L(b\mid A)=\alpha \;P(A\mid B=b)\!,

donde α es una constante de proporcionalidad.

La función de verosimilitud, abundando en los razonamientos anteriores, abre la vía para dos técnicas muy habituales en inferencia estadística: las de la máxima verosimilitud y la del test de la razón de verosimilitudes.

Ejemplo

Se considera una moneda de la que se desconoce la probabilidad p de que al lanzarla salga cara. La moneda se lanza cuatro veces y se obtiene la siguiente serie: CXCC (cara-cruz-cara-cara). Entonces,

P(CXCC\mid p)=4*p^{3}(1-p).

La función de verosimilitud sería entonces

L(p)=L(p\mid CXCC)=4*p^{3}(1-p),

que nos permite intuir, por ejemplo, que el valor 0,6 para p es más verosímil que el valor 0,5 dado que

{\frac {L(0,6)}{L(0,5)}}={\frac {4*0,6^{3}(1-0,6)}{4*0,5^{3}(1-0,5)}}=1,3824\geq 1.

Es razonable en este caso dar por bueno el valor 0.75 para p dado que dicho valor es el que maximiza el valor de la función de verosimilitud. Este razonamiento es la base del método de estimación de parámetros por máxima verosimilitud.

Distribuciones continuas

En los casos anteriores, los eventos considerados tenían una probabilidad p estrictamente mayor que cero. Pero cuando la noción de verosimilitud se extiende a variables aleatorias con una función de densidad f sobre, por ejemplo, el eje real, la probabilidad de un evento cualquiera es nula. Por ejemplo, supóngase el caso de tener una variable aleatoria real de distribución desconocida X de la que se extrae una muestra aleatoria $X_{1},...,X_{n}$ de observaciones independientes. Supóngase también que se dispone de una familia parametrizada de funciones de densidad $f_{\theta }(x)$ (es decir, que existe una función de densidad $f_{\theta }(x)$ para cada valor del parámetro $\theta (x)$ ).

En este caso, $\theta (x)$ juega el papel de parámetro desconocido y es razonable definir la función de verosimilitud $L(\theta )$ de la siguiente manera:

L(\theta )=L(\theta ;x_{1},...,x_{n}):=f_{X_{1},\dots ,X_{n}}(x_{1},...,x_{n};\theta )=\prod _{i=1}^{n}f_{X_{i}}(x_{i};\theta ).

Esta definición puede razonarse a partir de la original a través de un proceso de aproximación sustituyendo el evento $X=x_{i}$ de probabilidad nula por $x_{i}-\epsilon \leq X\leq x_{i}+\epsilon$ de probabilidad mayor o igual que cero y haciendo tender $\epsilon$ a cero.

Discusiones similares pueden aplicarse a los casos en que la variable aleatoria X tenga una distribución que sea un híbrido entre una variable continua y discreta. Esta situación se presenta a menudo en la práctica en el análisis de supervivencia cuando hay observaciones censuradas.

Notas históricas

La noción de verosimilitud procede del término inglés likelihood que, desde sus orígenes estuvo vinculado al concepto de probabilidad, probability, aunque denotando un vínculo de causalidad más débil. La comparación de hipótesis a través de la evaluación de verosimilitudes puede encontrarse en obras tan tempranas como Areopagitica de John Milton: when greatest likelihoods are brought that such things are truly and really in those persons to whom they are ascribed.

Sin embargo, el uso más moderno del término apareció en las obras de Thiele, a quien se atribuye la invención, y Peirce. La fijación del término tal y como lo conocemos hoy en día es, sin embargo, obra de R.A. Fisher, que trata de él en su artículo On the mathematical foundations of theoretical statistics.^[1]

Véase también

Máxima verosimilitud

Referencias

↑ Fisher,R.A. (1922). «On the mathematical foundations of theoretical statistics». Philosophical Transactions of the Royal Society of London. Series A 222.

Datos: Q45284

[1] Fisher,R.A. (1922). «On the mathematical foundations of theoretical statistics». Philosophical Transactions of the Royal Society of London. Series A 222.

[1]