Función probit

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En probabilidad y estadística se llama función probit a la inversa de la función de distribución o función cuantil asociada con la distribución normal estándar. La función tiene aplicaciones en gráficos estadísticos exploratorios y modelos probit.

Para la distribución normal estándar (a menudo denotada por N(0,1)) la función de distribución se denota comúnmente por Φ. Φ es una función sigmoide continua y creciente, cuyos dominio y recorrido son el intervalo (0, 1) y la recta real, respectivamente.

Por ejemplo, considérese el hecho de que la distribución N(0, 1) tiene un 95% de probabilidad entre -1,96 y 1,96 y es simétrica en un entorno de cero. De ahí se deduce que Φ(-1,96) = 0,025 = 1 - Φ(1,96).

La función probit proporciona el cálculo inverso, generando un valor de una variable aleatoria N(0, 1) asociado a una probabilidad acumulada bajo su curva. Formalmente, la función probit es la inversa de Φ(z), denotada Φ-1(p).

Siguiendo con el ejemplo, probit(0,025) = -1,96 = -probit(0,975).

En general, Φ(probit(p)) = p y probit(Φ(z)) = z

Gráfica de la función probit

La idea de probit fue publicada en 1934 por Chester Ittner Bliss (1899-1979) en un artículo de Science sobre cómo tratar datos tales como el porcentaje de plaga eliminada por un pesticida.[1] Bliss propuso transformar el porcentaje eliminado en una "unidad de probabilidad" (o "probit") que estaría linealmente relacionada con la definición moderna (él la definió arbitrariamente como igual a 0 para 0,0001 y 10 para 0,9999). Incluyó una tabla para ayudar a otros investigadores a convertir sus porcentajes eliminados a su probit, con la cual podrían dibujar el logaritmo de la dosis y así, se esperaba, obtener una línea más o menos recta. El llamado modelo probit es todavía importante en toxicología, así como en otros campos. La aproximación se justifica, en particular, si la variación de respuesta puede racionalizarse como una distribución lognormal de tolerancias entre los sujetos del test, donde la tolerancia de un sujeto particular es justo la dosis suficiente para la respuesta de interés.

El método introducido por Bliss fue transcrito en un importante texto de aplicaciones toxicológicas de D. J. Finney.[2] [3] Las tablas de valores de Finney pueden derivarse de probits, tal como se definen aquí, añadiendo una cantidad de 5. Esta diferencia es resumida por Collett (p. 55):[4] "La definición original de un probit [añadiendo 5] pretendía en principio evitar el trabajo con probits negativos; [...] Esta definición se usa todavía en algunos cuartos , pero en la mayoría de paquetes de software estadístico en los cuales se refiere como análisis probit, los probits se definen sin la suma de 5". Debería observarse que la metodología probit, incluyendo la optimización numérica para ajustarse a las funciones probit, fue introducida antes de la popularización de la computación electrónica. Cuando se usan tablas, es conveniente tener probits uniformemente positivos. Las áreas comunes de aplicación no requieren probits positivos.

Diagnosticando la desviación de una distribución de la normalidad[editar]

Además de proporcionar una base para importantes tipos de regresión, la función probit es útil en análisis estadístico para el diagnóstico de la desviación de la normalidad, de acuerdo con el método del gráfico Q-Q. Si un conjunto de datos es en realidad una muestra de una distribución normal, un gráfico de los valores frente a sus marcadores probit será, aproximadamente, lineal. Las desviaciones específicas de la normalidad, como la asimetría, la curtosis o la bimodalidad, pueden diagnosticarse basándose en la detección de desviaciones específicas de la linealidad. Mientras que el gráfico Q-Q se puede usar para la comparación con cualquier familia de distribuciones, no sólo la normal, el gráfico Q-Q normal es un procedimiento relativamente estándar de análisis exploratorio de datos porque la asunción de normalidad es a menudo el punto de inicio para el análisis.

Computación[editar]

La función de distribución de la normal y su inversa no están disponibles en forma cerrada y su computación requiere un cuidadoso uso de procedimientos numéricos. No obstante, las funciones están disponibles ampliamente en software estadístico y de modelización probabilística y en hojas de cálculo. En entornos de computación donde las implementaciones numéricas de la inversa de la función error están dispontibles, la función probit puede obtenerse como


\operatorname{probit}(p) = \sqrt{2}\,\operatorname{erf}^{-1}(2p-1).

Un ejemplo es MATLAB, donde está disponible una función 'erfinv'. El lenguaje Mathematica implementa 'InverseErf'. Otros entornos directamente implementan la función probit como se muestra en la siguiente sesión del lenguaje de programación R.

> qnorm(0.025)

[1] -1.959964

> pnorm(-1.96)

[1] 0.02499790

Una ecuación diferencial ordinaria para la función probit[editar]

Otro medio de computación está basado en la formación de una ecuación diferencial ordinaria no lineal para probit. Abreviando la función probit como w(p), la EDO es

\frac{d^2 w}{d p^2} = w \left(\frac{d w}{d p}\right)^2

con las condiciones centrales (límites)

w\left(1/2\right) = 0
w'\left(1/2\right) = \sqrt{2\pi}

Esta ecuación puede resolverse por varios métodos, incluyendo la aproximación clásica por series de potencias. Desde estas soluciones de tan alta exactitud como se desee, puede desarrollarse basada en la aproximación de Steinbrecher a la serie para la función de error inversa.[5] La solución por series de potencias viene dada por

 w(p) = \sqrt \frac{\pi}{2} \sum_{k=0}^{\infty} \frac{d_k}{(2k+1)}(2p-1)^{(2k+1)}

donde los coeficientes d_k satisfacen la recurrencia no lineal

d_{k+1} = \frac{\pi}{4} \sum_{j=0}^k \frac{d_j d_{k-j}}{(j+1)(2j+1)}

con  d_0=1 . En esta forma la razón d_{k+1}/d_k \rightarrow 1 como k \rightarrow \infty  .

Tópicos relacionados[editar]

Estrechamente relacionadas con la función probit (y el modelo probit) están la función logit y el modelo logit. La inversa de la función logística viene dada por

\operatorname{logit}(p)=\log\left( \frac{p}{1-p} \right) .

De forma análoga al modelo probit, puede asumirse que tal cantidad está linealmente relacionada con un conjunto de predictores, resultando en el modelo logit, la base en particular del modelo de regresión logística, la forma más frecuente de análisis de regresión para datos de respuesta binaria. En la practica estadística actual, los modelos de regresión probit y logit son tratados a menudo como casos del modelo lineal generalizado.

Véase también[editar]

Referencias[editar]

  1. Bliss CI. (1934). «The method of probits». Science 79 (2037):  pp. 38–39. doi:10.1126/science.79.2037.38. PMID 17813446. 
  2. Finney, D.J. (1947), Probit Analysis. (1st edition) Cambridge University Press, Cambridge, UK.
  3. Finney, D.J. (1971). Probit Analysis (3rd edition). Cambridge University Press, Cambridge, UK. ISBN 052108041X. OCLC 174198382. 
  4. Collett, D. (1991). Modelling Binary Data. Chapman and Hall / CRC. 
  5. Steinbrecher, G., Shaw, W.T. (2008). «Quantile mechanics». European Journal of Applied Mathematics 19 (2):  pp. 87–112. doi:10.1017/S0956792508007341. 

Referencias[editar]