Regresión logística condicional

La regresión logística condicional es una extensión de la regresión logística que permite tener en cuenta la estratificación y el emparejamiento. Su campo principal de aplicación es el de los estudios observacionales y, en particular, la epidemiología. Fue diseñada en 1978 por Norman Breslow, Nicholas Día, K. T. Halvorsen, Ross L. Prentice Y C. Sabai.^[1] Este tipo de procedimiento es el más flexible y general para los datos pareados.

Motivación[editar]

Los estudios observacionales utilizan la estratificación o el emparejamiento como una manera de controlar el factor de confusión. Muchas pruebas existían antes de la regresión logística condicional para datos pareados como ha sido demostrado en estudios relacionados. Aun así, no se dejaron pruebas para el análisis de variables continuas con tamaño de estratos arbitrarios. Todos aquellos procedimientos también carecen de la flexibilidad de regresión logística condicional y, en particular, la posibilidad para controlar las covariables.

La regresión logística puede tener en cuenta la estratificación teniendo un término constante por cada estrato. Si $Y_{i\ell }\in \{0,1\}$ la etiqueta (ej. estado del caso) de $\ell$ th obsevación de $i$ th estratos y $X_{i\ell }\in \mathbb {R} ^{p}$ los valores de las variables correspondientes. Entonces, la probabilidad de una observación es $\mathbb {P} (Y_{i\ell }=1|X_{i\ell })={\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i\ell })}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i\ell })}}$ donde $\alpha _{i}$ es el término constante para los $i$ th estratos. Mientras esto funciona satisfactoriamente para un número limitado de estratos, el comportamiento patológico ocurre cuando los estratos son pequeños. Cuando los estratos son pares, el número de variables aumenta con el número de observaciones $N$ (iguala ${\frac {N}{2}}+p$ ). Los resultados asintóticos en los que la estimación de máxima verosimilitud está basada es, por lo tanto, no válida y, la estimación es parcial. De hecho, puede mostrarse que los análisis no condicionados con resultados de datos pareados pares da como resultado una estimación de cociente de probabilidades que es el cuadrado del correcto, un condicional.^[2]

Probabilidad condicional[editar]

El enfoque de la probabilidad condicional trata el comportamiento patológico anterior condicionando el número de casos en los que cada estrato y, por lo tanto, elimina la necesidad de estimar los parámetros de los estratos. En el caso en que los estratos son pares, donde la primera observación es un caso y el segundo es un control, puede observarse lo siguiente

{\begin{aligned}&\mathbb {P} (Y_{i1}=1,Y_{i2}=0|X_{i1},X_{i2},Y_{i1}+Y_{i2}=1)\\&={\frac {\mathbb {P} (Y_{i1}=1|X_{i1})\mathbb {P} (Y_{i2}=0|X_{i2})}{\mathbb {P} (Y_{i1}=1|X_{i1})\mathbb {P} (Y_{i2}=0|X_{i2})+\mathbb {P} (Y_{i1}=0|X_{i1})\mathbb {P} (Y_{i2}=1|X_{i2})}}\\[6pt]\ &={\frac {{\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}}\times {\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}}}{{\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}}\times {\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}}+{\frac {1}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i1})}}\times {\frac {\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}{1+\exp(\alpha _{i}+{\boldsymbol {\beta }}^{\top }X_{i2})}}}}\\[6pt]\ &={\frac {\exp({\boldsymbol {\beta }}^{\top }X_{i1})}{\exp({\boldsymbol {\beta }}^{\top }X_{i1})+\exp({\boldsymbol {\beta }}^{\top }X_{i2})}}.\\[6pt]\end{aligned}}

Con cómputos similares, la probabilidad condicional de los estratos de medida $m$ , con las $k$ primeras observaciones siendo los casos, es : $\mathbb {P} (Y_{ij}=1{\text{ for }}j\leq k,Y_{ij}=0{\text{ for }}k<j\leq m|X_{i1},...,X_{im},\sum _{j=1}^{m}Y_{ij}=k)={\frac {\exp(\sum _{j=1}^{k}{\boldsymbol {\beta }}^{\top }X_{ij})}{\sum _{J\in {\mathcal {C}}_{k}^{m}}\sum _{j\in J}\exp({\boldsymbol {\beta }}^{\top }X_{ij})}},$ donde ${\mathcal {C}}_{k}^{m}$ es el conjunto de todos los subconjuntos de tamaño $k$ del conjunto $\{1,...,m\}$ .

La probabilidad logarítmica condicional completa es, entonces, simplemente la suma de la probabilidad logarítmica para cada estrato. El estimador es, por lo tanto, definido como $\beta$ que maximiza a probabilidad logarítmica condicional.

Implementación[editar]

La regresión logística condicional está disponible en R como la función clogit en el paquete de supervivencia. También, se encuentra en el paquete de supervivencia porque la probabilidad logarítmica de un modelo de logística condicional es el mismo que la probabilidad logarítmica de un modelo de Cox con una estructura de datos particular.^[3]

Estudios relacionados[editar]

Prueba de diferencias pareadas permite testear la asociación entre un resultado binario y un predictor continuo mientras se tiene en cuenta el apareamiento.
La prueba de Cochran-Martel-Haenszel permite testear la asociación entre un resultado binario y un predictor binario mientras se tiene en cuenta la estratificación con tamaño de estratos arbitrarios. Cuando sus condiciones de aplicación están verificadas, es idéntica a la prueba de puntuación de la regresión logística condicional.^[4]

Notas[editar]

↑ Breslow NE, Day NE, Halvorsen KT, Prentice RL, Sabai C (1978). «Estimation of multiple relative risk functions in matched case-control studies.». Am J Epidemiol 108 (4): 299-307. PMID 727199. doi:10.1093/oxfordjournals.aje.a112623.
↑ Breslow, N.E.; Day, N.E. (1980). Statistical Methods in Cancer Research. Volume 1-The Analysis of Case-Control Studies. Lyon, France: IARC. pp. 249-251. Archivado desde el original el 26 de diciembre de 2016. Consultado el 10 de mayo de 2018.
↑ Lumley, Thomas. «R documentation Conditional logistic regression». Consultado el 3 de noviembre de 2016.
↑ Day, N. E., Byar, D. P. (1979). «Testing hypotheses in case-control studies-equivalence of Mantel-Haenszel statistics and logit score tests.». Biometrics 35 (3): 623-630. doi:10.2307/2530253.

Datos: Q19596443

[pmid727199-1] Breslow NE, Day NE, Halvorsen KT, Prentice RL, Sabai C (1978). «Estimation of multiple relative risk functions in matched case-control studies.». Am J Epidemiol 108 (4): 299-307. PMID 727199. doi:10.1093/oxfordjournals.aje.a112623.

[2] Breslow, N.E.; Day, N.E. (1980). Statistical Methods in Cancer Research. Volume 1-The Analysis of Case-Control Studies. Lyon, France: IARC. pp. 249-251. Archivado desde el original el 26 de diciembre de 2016. Consultado el 10 de mayo de 2018.

[3] Lumley, Thomas. «R documentation Conditional logistic regression». Consultado el 3 de noviembre de 2016.

[4] Day, N. E., Byar, D. P. (1979). «Testing hypotheses in case-control studies-equivalence of Mantel-Haenszel statistics and logit score tests.». Biometrics 35 (3): 623-630. doi:10.2307/2530253.

[1]

[2]

[3]

[4]