Regresión logística

En estadística, la regresión logística es un tipo de análisis de clasificación utilizado para predecir el resultado de una variable categórica (una variable que puede adoptar un número limitado de categorías) en función de las variables independientes o predictoras. Es útil para modelar la probabilidad de un evento ocurriendo en función de otros factores. El análisis de regresión logística se enmarca en el conjunto de Modelos Lineales Generalizados (GLM por sus siglas en inglés) que usa como función de enlace la función logit. Las probabilidades que describen el posible resultado de un único ensayo se modelan como una función de variables explicativas, utilizando una función logística.

La regresión logística es usada extensamente en las ciencias médicas y sociales. Otros nombres para regresión logística usados en varias áreas de aplicación incluyen modelo logístico, modelo logit, y clasificador de máxima entropía.

Introducción

La regresión logística analiza datos distribuidos binomialmente de la forma

$Y_{i}\ \sim B(p_{i},n_{i}),{\text{ para }}i=1,\dots ,m,$

donde los números de ensayos Bernoulli $n_{i}$ son conocidos y las probabilidades de éxito $p_{i}$ son desconocidas. Un ejemplo de esta distribución es el porcentaje de semillas ( $p_{i}$ ) que germinan después de que $n_{i}$ son plantadas.

El modelo es entonces obtenido a base de lo que cada ensayo (valor de $i$ ) y el conjunto de variables explicativas/independientes puedan informar acerca de la probabilidad final. Estas variables explicativas pueden pensarse como un vector $X_{i}$ $k$ -dimensional y el modelo toma entonces la forma

$p_{i}=\operatorname {E} \left(\left.{\frac {Y_{i}}{n_{i}}}\right|X_{i}\right).\,\!$

Los logits de las probabilidades binomiales desconocidas (i.e., los logaritmos de la razón de probabilidades son modeladas como una función lineal de los $X_{i}$ .

$\operatorname {logit} (p_{i})=\ln \left({\frac {p_{i}}{1-p_{i}}}\right)=\beta _{0}+\beta _{1}x_{1,i}+\cdots +\beta _{k}x_{k,i}.$

Note que un elemento particular de $X_{i}$ puede ser ajustado a 1 para todo $i$ obteniéndose una constante independiente en el modelo. Los parámetros desconocidos $\beta _{j}$ son usualmente estimados a través del método de máxima verosimilitud.

La interpretación de los estimados del parámetro $\beta _{j}$ es como los efectos aditivos en el logaritmo de la razón de momios para una unidad de cambio en la jésima variable explicativa. En el caso de una variable explicativa dicotómica, por ejemplo género, $e^{\beta }$ es la estimación de la razón de probabilidades de tener el resultado para, por decir algo, hombres comparados con mujeres. El modelo tiene una formulación equivalente dada por:

$p_{i}={\frac {1}{1+e^{-(\beta _{0}+\beta _{1}x_{1,i}+\cdots +\beta _{k}x_{k,i})}}}$

Esta forma funcional es comúnmente identificada como un "perceptrón" de una capa simple o red neuronal artificial de una sola capa. Una red neuronal de una sola capa calcula una salida continua en lugar de una función definida a trozos. La derivada de p_i con respecto a X = x₁...x_k es calculada de la forma general:

$y={\frac {1}{1+e^{-f(X)}}}$

donde $f(x)$ es una función analítica en X. Con esta elección, la red de capa simple es idéntica al modelo de regresión logística. Esta función tiene una derivada continua, la cual permite ser usada en propagación hacia atrás. Esta función también es preferida pues su derivada es fácilmente calculable:

y'=y(1-y){\frac {\mathrm {d} f}{\mathrm {d} X}}\,\!

Implementación práctica

Función logística con $\beta _{0}+\beta _{1}x+e$ en el eje horizontal y $\pi (x)$ en el eje vertical.

La regresión logística unidimensional puede usarse para tratar de correlacionar la probabilidad de una variable cualitativa binaria (asumiremos que puede tomar los valores reales "0" y "1") con una variable escalar x. La idea es que la regresión logística aproxime la probabilidad de obtener "0" (no ocurre cierto suceso) o "1" (ocurre el suceso) con el valor de la variable explicativa x. En esas condiciones, la probabilidad aproximada del suceso se aproximará mediante una función logística del tipo:^[1]

$\pi (x)={\frac {e^{(\beta _{0}+\beta _{1}x)}}{e^{(\beta _{0}+\beta _{1}x)}+1}}={\frac {1}{e^{-(\beta _{0}+\beta _{1}x)}+1}},$

que puede reducirse al cálculo de una regresión lineal para la función logit de la probabilidad:

$g(x)=\ln {\frac {\pi (x)}{1-\pi (x)}}=\beta _{0}+\beta _{1}x,$

o una regresión exponencial:

${\frac {\pi (x)}{1-\pi (x)}}=e^{(\beta _{0}+\beta _{1}x)}.$

El gráfico de la función logística se muestra en la figura que encabeza esta sección, la variable independiente es la combinación lineal $\beta _{0}+\beta _{1}x$ y la variable dependiente es la probabilidad estimada $\pi (x)$ . Si se realiza la regresión lineal, la forma de la probabilidad estimada puede ser fácilmente recuperada a partir de los coeficientes calculados:^[1]

Para hacer la regresión deben tomarse los valores $X_{i}$ de las observaciones ordenados de mayor a menor y formar la siguiente tabla:

Valores ordenados	Valor de categoría	Probabilidad estimada	Logit
X₁	ε₁	π(X₁)	g(X₁)
X₂	ε₂	π(X₂)	g(X₂)
...	...	...	...
X_n	ε_n	π(X_n)	g(X_n)

Donde ε_i es "0" o "1" según el caso y además:

$0\leq \pi (X_{i})={\cfrac {\sum _{k=1}^{i}\varepsilon _{k}}{i}}\leq 1,\qquad g(X_{i})=\ln \left({\frac {\pi (X_{i})}{1-\pi (X_{i})}}\right)=\beta _{0}+\beta _{1}X_{i}$

En el cálculo de g pueden aparecer problemas al principio del intervalo si π(X_j) = 0 para algunos valores de $j$ .

Ejemplo

Sea $p(x)$ la probabilidad de éxito cuando el valor de la variable predictora es $x$ entonces sea

p(x)={\frac {1}{1+e^{-(\beta _{0}+\beta _{1}x)}}}={\frac {e^{\beta _{0}+\beta _{1}x}}{1+e^{\beta _{0}+\beta _{1}x}}}.

Después de algunas operaciones se prueba que

{\frac {p(x)}{1-p(x)}}=e^{\beta _{0}+\beta _{1}x}

donde ${\frac {p(x)}{1-p(x)}}$ son las posibilidades en favor de éxito.

Si tomamos un valor de ejemplo, digamos p(50) = 2/3, entonces

{\frac {p(50)}{1-p(50)}}={\frac {\frac {2}{3}}{1-{\frac {2}{3}}}}=2.

Cuando x = 50, un éxito es dos veces tan probable como una falla. Es decir, se puede decir simplemente que las chances (odds) son 2 a 1.

Extensiones

Algunas extensiones del modelo existen para tratar variables dependientes multicategóricas y/o ordinales, tales como la regresión politómica. La clasificación en varias clases por regresión logística es conocida como regresión logística multinomial. Una extensión del modelo logístico para ajustar conjuntos de variables independientes es el campo aleatorio condicional.

Véase también

Referencias

↑ ^a ^b Hosmer, David W.; Lemeshow, Stanley (2000). Applied Logistic Regression (2nd edición). Wiley. ISBN 0-471-35632-8.

Bibliografía

Agresti, Alan. (2002). Categorical Data Analysis. New York: Wiley-Interscience. ISBN 0-471-36093-7.
Amemiya, T. (1985). Advanced Econometrics. Harvard University Press. ISBN 0-674-00560-0.
Balakrishnan, N. (1991). Handbook of the Logistic Distribution. Marcel Dekker, Inc. ISBN 978-0824785871.
Green, William H. (2003). Econometric Analysis, fifth edition. Prentice Hall. ISBN 0-13-066189-9.
Hosmer, David W.; Stanley Lemeshow (2000). Applied Logistic Regression, 2nd ed.. New York; Chichester, Wiley. ISBN 0-471-35632-8.

Enlaces externos

Datos: Q1132755

[Hosmer-1] Hosmer, David W.; Lemeshow, Stanley (2000). Applied Logistic Regression (2nd edición). Wiley. ISBN 0-471-35632-8.

[1]