Ponderador de probabilidad inversa

La ponderación de probabilidad inversa es una técnica para calcular estadísticas estandarizadas en una población diferente de aquella en que se obtuvo el dato. Los estudios realizados con una población dispar de la del muestreo y con poblaciones de inferencia de objetivo (población de objetivo) son de aplicación común. Puede haber factores que le prohíban a los investigadores utilizar directamente un muestreo de la población de objetivo como costos, tiempo, o preocupaciones éticas. Una solución a este problema es utilizar una estrategia de diseño alternativa, por ejemplo un muestreo estratificado. La ponderación, cuando es correctamente aplicada, puede mejorar potencialmente la eficacia y reducir las tendencias a las estimaciones.^[1]

Uno de los primeros estimadores es el estimador Horvitz–Thompson .^[2] Cuándo la probabilidad del muestreo es conocida, es decir cuando la población de muestreo y la población de objetivo coinciden, se utiliza el inverso de esta probabilidad para ponderar las observaciones. Esta aproximación ha sido generalizada a muchos aspectos de estadísticas bajo varios marcos. Existen ponderaciones probables, ponderaciones con ecuaciones estimadas y ponderaciones con densidades estimadas de las que se derivan una gran mayoría de estadísticas. Estas aplicaciones codifican la teoría de otras estadísticas y estimadores como modelos estructurales insignificantes, la proporción de mortalidad estandarizada, y el algoritmo EM para mucha información o agregada.

La ponderación de probabilidad inversa es también utilizada para contar con datos que desaparecen cuándo temas con poca información no pueden ser incluidos en el análisis primario. Así, la ponderación de probabilidad inversa puede aumentar los datos para temas que son mal representados debido a una gran escasez de datos

Ponderador de probabilidad inverso (PPI)[editar]

El estimador de ponderación de probabilidad inversa puede ser utilizado para demostrar causalidad cuándo el investigador no puede conducir un experimento controlado pero ha observado los datos obtenidos. Como está asumido que el tratamiento no es aleatoriamente asignado, el objetivo es estimar la hipótesis o el resultado potencial si todos los sujetos en la población fueran asignados cualquier tratamiento.

Suponiendo que el dato observado es $\{{\bigl (}X_{i},A_{i},Y_{i}{\bigr )}\}_{i=1}^{n}$ obtenido i.i. de distribución desconocida P, dónde

$X\in \mathbb {R} ^{p}$ covaría

$A\in \{0,1\}$
$Y\in \mathbb {R}$
No suponemos que el tratamiento asignado aleatoriamente es completamente al azar

El objetivo es estimar el resultado potencial, $Y^{*}{\bigl (}a{\bigr )}$ , aquello sería observado si el sujeto fuera asignado el tratamiento A. Luego compare la media de los resultados obtenidos si todos los pacientes en la población fueran asignados a cualquier tratamiento: $\mu _{a}=\mathbb {E} Y^{*}(a)$ . Queremos estimar $\mu _{a}$ usando datos previamente observados $\{{\bigl (}X_{i},A_{i},Y_{i}{\bigr )}\}_{i=1}^{n}$ .

Fórmula del estimador[editar]

${\hat {\mu }}_{a,n}^{IPWE}=n^{-1}\Sigma _{i=1}^{n}Y_{i}1_{A_{i}=a}/{\hat {p}}_{n}(A_{i}=a|X_{i})$

Construcción del PPI[editar]

$\mu _{a}=\mathbb {E} \{Y1_{A=a}/p(A|X)\}$ donde $p(a|x)=P(A=a,X=x)$ $A$
Construye ${\hat {p}}_{n}(a|x)$ de $p(a|x)$ utilizando cualquier modelo de propensión (a menudo un modelo de regresión logístico).
${\hat {\mu }}_{a,n}^{IPWE}=n^{-1}\Sigma _{i=1}^{n}Y_{i}1_{A_{i}=a}/{\hat {p}}_{n}(A_{i}|X_{i})$

Con el cálculo de la media de cada grupo de tratamiento, se puede utilizar una prueba estadística llamada t-test o ANOVA para analizar las diferencias entre las medias de los grupos y determinar la importancia estadística de efecto de tratamiento.

Suposiciones[editar]

Consistencia: $Y=Y^{*}(A)$
Ningún factor de confusión no medidos: $\{Y^{*}(0),Y^{*}(1)\}\perp A|X$ $\{Y^{*}(0),Y^{*}(1)\}\perp A|X$
- La asignación del tratamiento está basada sólo en datos covariables y resultados potenciales independientes.
Positivo: $P(A=a|X=x)>0$ for all $a$ and $x$

Limitaciones[editar]

El ponderador de probabilidad inverso (PPI) puede ser inestable si las propensiones estimadas son pequeñas. Si la probabilidad de cualquier asignación de tratamiento es pequeña, entonces el modelo de regresión logístico puede devenir inestable alrededor de las colas que causan que el PPI sea también ser menos estable.

Ponderador de probabilidad inverso aumentado (PPIA)[editar]

Un estimador alternativo es el ponderador de probabilidad inverso aumentado (PPIA) que combina ambas, las propiedades del estimador y el ponderador de probabilidad inverso. Es por lo tanto un método "doblemente resistente" en el que sólo se requiere o la propensión o el modelo de resultado para ser correctamente especificado pero no ambos. Este método aumenta el PPIA para reducir variabilidad y mejorar la eficacia de estimación. Además este modelo contiene las mismas suposiciones que el ponderador de probabilidad inverso (PPI).^[3]

Fórmula del estimador[editar]

${\hat {\mu }}_{a,n}^{AIPWE}={\frac {1}{n}}\sum _{k=1}^{n}{\Biggl (}{\frac {Y_{i}1_{A_{i}=a}}{{\hat {p}}_{n}(A_{i}|X_{i})}}-{\frac {1_{A_{i}=a}-{\hat {p}}_{n}(A_{i}|X_{i})}{{\hat {p}}_{n}(A_{i}|X_{i})}}{\hat {Q}}_{n}(X_{i},a){\Biggr )}$

Construcción del PPIA[editar]

Construye el estimador de regresión ${\hat {Q}}_{n}(x,a)$ para pronosticar un resultado $Y$ basado en covariantes $X$ y tratamientos $A$
Construye el estimador de propensión ${\hat {p}}_{n}(A_{i}|X_{i})$
Combina PPIA para obtener ${\hat {\mu }}_{a,n}^{AIPWE}$