Regresión a la media

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística, la regresión hacia la media es el fenómeno en el que si una variable es extrema en su primera medición, tenderá a estar más cerca de la media en su segunda medición y, paradójicamente, si es extrema en su segunda medición, tenderá a haber estado más cerca de la media en su primera.[1] [2] [3]

Para evitar hacer inferencias equivocadas, la regresión hacia la media debe ser considerada en el diseño de experimentos científicos y la interpretación de los datos. [4]

Las condiciones bajo las que se produce la regresión hacia la media dependen de la forma en que el término se defina matemáticamente. Sir Francis Galton observó por primera vez el fenómeno en el contexto de una regresión lineal simple de puntos de datos. Sin embargo, un enfoque menos restrictivo posible. La regresión hacia la media se puede definir para cualquier distribución bivariante con idénticas distribuciones marginales. Existen dos tipo de definiciones.[5] Una definición concuerda estrechamente con el uso común del término "regresión hacia la media". No todas esas distribuciones bivariadas muestran la regresión hacia la media en esta definición. Sin embargo, todas estas distribuciones de dos variables muestran regresión hacia la media bajo la otra definición. Históricamente, lo que hoy se llama regresión hacia la media también se ha llamado la reversión a la media y la reversión a la mediocridad. En las finanzas, el término reversión a la media tiene un significado diferente. Jeremy Siegel lo utiliza para describir una series de tiempo financiera en la que "los retornos pueden ser muy inestables en el corto plazo, pero muy estables en el largo plazo." Más cuantitativamente, es aquella en la que la desviación estándar de los rendimientos anuales promedio disminuye más rápidamente que la inversa del periodo de mantenimiento, lo que implica que el proceso no es un paseo aleatorio, pero que los períodos de rendimientos más bajos se siguen sistemáticamente por períodos de mayor rentabilidad.[6]

Antecedentes conceptuales[editar]

Consideremos un ejemplo simple: un grupo de estudiantes realiza un test de 100 preguntas verdadera/falsa sobre un tema. Supongamos que todos los estudiantes eligen al azar todas sus respuestas. Entonces, la puntuación de cada alumno sería una realización de un conjunto de variables aleatorias independientes e idénticamente distribuidas, con una media de 50. Naturalmente, algunos estudiantes calificarán sustancialmente por encima de 50 y algunos sustancialmente por debajo de 50 por casualidad. Si se toma solo a los estudiantes que han obtenido una puntuación en el 10% superior y se les da una segunda prueba en la que volvieran a elegir al azar en todas las preguntas, de nuevo se espera que la puntuación media esté cerca de 50. Así, la media de estos estudiantes sería "una regresión" a la media de todos los estudiantes que tomaron la prueba original. No importa lo que un estudiante obtiene en la prueba original, la mejor predicción de su puntuación en la segunda prueba es de 50.

Si no existiera la suerte o el hecho de adivinar al azar las respuestas proporcionadas por los estudiantes a las preguntas de la prueba, a continuación, todos los estudiantes se anotan el mismo en la segunda prueba, ya que anotó en la prueba original, y no habría ninguna regresión hacia la media.

La mayoría de las situaciones reales se sitúan entre estos dos extremos: por ejemplo, se podría considerar los resultados del examen como una combinación de habilidad y suerte. En este caso, el subgrupo de estudiantes con calificaciones por encima del promedio se compone de aquellos que fueron calificados y no tenía especial mala suerte, junto con los que estaban no calificados, pero eran extremadamente afortunados. En una nueva prueba de este subconjunto, los no calificados será poco probable que repetir su golpe de suerte, mientras que el experto no tendrá una segunda oportunidad de tener mala suerte. Por lo tanto, los que le fue bien con anterioridad no es probable que haga tan bien en la segunda prueba.

El siguiente es un ejemplo de este segundo tipo de regresión hacia la media. Una clase de estudiantes toma dos ediciones de la misma prueba en dos días sucesivos. Se ha observado con frecuencia que los peores resultados en el primer día tienden a mejorar sus puntuaciones en el segundo día, y los mejores intérpretes en el primer día tienden a hacer peor en el segundo día. El fenómeno se produce porque las calificaciones de los estudiantes están determinadas en parte por la capacidad subyacente y en parte por casualidad. Para la primera prueba, algunos tendrán suerte, y una puntuación mayor que su capacidad, y algunos tendrán mala suerte y puntuación menor que su capacidad. Algunos de los estudiantes afortunados en la primera prueba tendrán suerte otra vez en la segunda prueba, pero más de ellos tendrá un promedio menor o por debajo de las puntuaciones promedio. Por lo tanto, un estudiante que tuvo suerte en la primera prueba es más probable que tenga una puntuación peor en la segunda prueba que una mejor puntuación. De manera similar, los estudiantes que obtengan una puntuación menor que la media en la primera prueba tenderán a ver que sus puntuaciones aumentan en la segunda prueba.

Historia[editar]

El concepto de regresión proviene de la genética y fue popularizado por Sir Francis Galton a finales del siglo 19 con la publicación de Regression towards mediocrity in hereditary stature.[7] Galton observó que las características extremas (por ejemplo, altura) de los padres no se transmiten por completo a su descendencia. Más bien, las características de la descendencia retroceden hacia un punto mediocre (un punto que desde entonces ha sido identificada como la media). Al medir las alturas de cientos de personas, fue capaz de cuantificar la regresión a la media, y estimar el tamaño del efecto. Galton escribió que, "la regresión media de la descendencia es una fracción constante de sus respectivos mediados de los padres desviaciones". Esto significa que la diferencia entre un niño y sus padres para algunas características es proporcional a la desviación de sus padres de las personas típicas de la población. Si sus padres son cada dos pulgadas más alto que el promedio para los hombres y las mujeres, en promedio, será más corta que sus padres por algún factor (que, en la actualidad, que llamaríamos uno menos el coeficiente de regresión ) veces dos pulgadas. Para la altura, Galton estimó que este coeficiente era aproximadamente 2/3: la altura de un individuo medirá alrededor de un punto medio que es dos tercios de la desviación de los padres del promedio de la población.

Referencias[editar]

  1. Everitt, B.S. (2002) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X
  2. Upton, G., Cook, I. (2006) Oxford Dictionary of Statistics, OUP. ISBN 978-0-19-954145-4
  3. Stigler, Stephen M (1997). «Regression toward the mean, historically considered». Statistical Methods in Medical Research 6 (2): 103-114. doi:10.1191/096228097676361431. PMID 9261910. 
  4. Chiolero, A; Paradis, G; Rich, B; Hanley, JA (2013). «Assessing the Relationship between the Baseline Value of a Continuous Variable and Subsequent Change Over Time.». Frontiers in Public Health 1: 29. doi:10.3389/fpubh.2013.00029. PMC 3854983. PMID 24350198. 
  5. Samuels (1991).
  6. "Jeremy Siegel" (2007). Stocks for the Long Run, 4th edition. McGraw–Hill. ISBN 978-0071494700. , p. 13, pp. 28–9
  7. Galton, F. (1886). «Regression towards mediocrity in hereditary stature». The Journal of the Anthropological Institute of Great Britain and Ireland 15: 246-263. doi:10.2307/2841583. JSTOR 2841583.