Estimador de Kaplan-Meier

En el análisis de la supervivencia, el estimador de Kaplan-Meier es un estimador no paramétrico de la función de supervivencia. Fue introducido por Edward L. Kaplan y Paul Meier en 1958.^[1]

Este estimador tiene en cuenta la censura.

El estimador admite una representación gráfica por medio de una función escalonada.

Formulación[editar]

Sea S(t) la función de supervivencia de una determinada población, es decir, la probabilidad de que uno de sus integrantes viva más allá de un tiempo t. Para una muestra de esta población de tamaño N, sean

t_{1}\leq t_{2}\leq t_{3}\leq \cdots \leq t_{N}

los tiempos que discurren hasta la muerte todos ellos. Entonces, para cada t_i, se define:

d_i, el número de muertes en el momento t_i y
n_i, el número de sujetos en riesgo justo antes de t_i. De no haber censura, n_i es el número de supervivientes inmediatamente antes del momento t_i. Con censura es el número de supervivientes menos el número de casos censurados: sólo se observan los sujetos vivos que no se han caído del estudio en el momento en que ocurre una muerte.

El estimador de Kaplan–Meier de S(t) el producto

{\hat {S}}(t)=\prod \limits _{t_{i}<t}{\frac {n_{i}-d_{i}}{n_{i}}}.

Puede probarse que se trata del estimador no paramétrico de máxima verosimilitud de S(t).

Formulación alternativa[editar]

Existe una definición alternativa,

{\hat {S}}(t)=\prod \limits _{t_{i}\leq t}{\frac {n_{i}-d_{i}}{n_{i}}},

que difiere de la anterior sólo en los momentos de las muertes. Una es continua por la derecha y otra lo es por la izquierda.

Sea T la variable aleatoria que mide el tiempo de muerte y F(t) su función de distribución. Entonces

S(t)=P[T>t]=1-P[T\leq t]=1-F(t).\,

Por lo tanto, la versión continua por la derecha es preferible: la hace coherente con la definición habitual de F(t).

Consideraciones estadísticas[editar]

El estimador de Kaplan–Meier es un estadístico y existen varios estimadores de su varianza. Uno de los más habituales lo da la fórmula de Greenwood::

{\widehat {\operatorname {Var} }}({\widehat {S}}(t))={\widehat {S}}(t)^{2}\sum \limits _{t_{i}<t}{\frac {d_{i}}{{n_{i}}({n_{i}-d_{i}})}}.

Existen métodos para comparar distintas curvas de Kaplan–Meier (por ejemplo, las correspondientes a dos tratamientos médicos distintos) como, por ejemplo:

El test log-rank
El modelo de regresión de Cox

Aplicaciones[editar]

El estimador de Kaplan–Meier tiene diversas aplicaciones. En medicina se usa para medir la fracción de pacientes todavía vivos tiempo después de un tratamiento. En economía para medir el tiempo que pasa la gente en el paro después de perder su empleo. En ingeniería para estimar el tiempo hasta el fallo en una máquina.

Uno de los problemas típicos en el análisis de la supervivencia consiste en determinar si dos curvas de Kaplan-Meier (por ejemplo, las correspondientes a dos cohortes de pacientes que han sido sometidos a tratamientos distintos) son o no significativamente distintas.

Implementación en R[editar]

La función survfit de R permite calcular el estimador de Kaplan-Meier para datos truncados o censurados. Existen otras funciones^[2] que permiten representarlos gráficamente, comparar varios de ellos, etc.

Bibliografía[editar]

Kaplan, E. L.; Meier, P.: Nonparametric estimation from incomplete observations. J. Amer. Statist. Assn. 53:457–481, 1958. JSTOR 2281868

Kaplan, E.L. en la retrospectiva "This week's citation classic". Current Contents 24, 14 (1983). Disponible en PDF.
Guadalupe Gómez, Carles Serrat y Klaus Langohr: S-PLUS en los estudios de supervivencia. Disponible en PDF.
Borges, R. (2005). Análisis de sobrevivencia utilizando el Lenguaje R. XV Simposio de Estadística, Paipa, Colombia. Disponible en PDF