Regresión a la media

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística, la regresión hacia la media es el fenómeno en el que si una variable es extrema en su primera medición, tenderá a estar más cerca de la media en su segunda medición y, paradójicamente, si es extrema en su segunda medición, tenderá a haber estado más cerca de la media en su primera.[1] [2] [3] Para evitar hacer inferencias equivocadas, la regresión hacia la media debe ser considerada en el diseño de experimentos científicos y la interpretación de los datos. Las condiciones bajo las que se produce la regresión hacia la media dependen de la forma en que el término se defina matemáticamente. Sir Francis Galton observó por primera vez el fenómeno en el contexto de una regresión lineal simple de puntos de datos. Sin embargo, un enfoque menos restrictivo posible. La regresión hacia la media se puede definir para cualquier distribución bivariante con idénticas distribuciones marginales. Existen dos tipo de definiciones.[4] Una definición concuerda estrechamente con el uso común del término "regresión hacia la media". No todas esas distribuciones bivariadas muestran la regresión hacia la media en esta definición. Sin embargo, todas estas distribuciones de dos variables muestran regresión hacia la media bajo la otra definición. Históricamente, lo que hoy se llama regresión hacia la media también se ha llamado la reversión a la media y la reversión a la mediocridad. En las finanzas, el término reversión a la media tiene un significado diferente. Jeremy Siegel lo utiliza para describir una series de tiempo financiera en la que "los retornos pueden ser muy inestables en el corto plazo, pero muy estables en el largo plazo." Más cuantitativamente, es aquella en la que la desviación estándar de los rendimientos anuales promedio disminuye más rápidamente que la inversa del periodo de mantenimiento, lo que implica que el proceso no es un paseo aleatorio, pero que los períodos de rendimientos más bajos se siguen sistemáticamente por períodos de mayor rentabilidad .[5]

Antecedentes conceptuales[editar]

Consideremos un ejemplo simple: un grupo de estudiantes tiene una prueba de 100 reactivos verdadero/falso sobre un tema. Supongamos que todos los estudiantes eligen al azar en todas las preguntas. Entonces, la puntuación de cada alumno sería una realización de un conjunto de variables aleatorias independientes e idénticamente distribuidas, con una media de 50. Naturalmente, algunos estudiantes calificarán sustancialmente por encima de 50 y algo sustancialmente por debajo de 50 por casualidad. Si se toma sólo la puntuación del 10% superior de los estudiantes y se les da una segunda prueba en la que volvierán a elegir al azar en todos los reactivos, de nuevo se espera que la puntuación media este cerca de 50. Así, la media de estos estudiantes sería "una regresión" a la media de todos los estudiantes que tomaron la prueba original. No importa lo que un estudiante obtiene en la prueba original, la mejor predicción de su puntuación en la segunda prueba es de 50.

Si no existiera la suerte o el hecho de adivinar al azar las respuestas proporcionadas por los estudiantes a las preguntas de la prueba, a continuación, todos los estudiantes se anotan el mismo en la segunda prueba, ya que anotó en la prueba original, y no habría ninguna regresión hacia la media. La mayoría de las situaciones reales se sitúan entre estos dos extremos: por ejemplo, se podría considerar los resultados del examen como una combinación de habilidad y suerte . En este caso, el subgrupo de estudiantes con calificaciones por encima del promedio se compone de aquellos que fueron calificados y no tenía especial mala suerte, junto con los que estaban no calificados, pero eran extremadamente afortunados. En una nueva prueba de este subconjunto, los no calificados será poco probable que repetir su golpe de suerte, mientras que el experto no tendrá una segunda oportunidad de tener mala suerte. Por lo tanto, los que le fue bien con anterioridad no es probable que haga tan bien en la segunda prueba.

Referencias[editar]

  1. Everitt, B.S. (2002) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X
  2. Upton, G., Cook, I. (2006) Oxford Dictionary of Statistics, OUP. ISBN 978-0-19-954145-4
  3. «Regression toward the mean, historically considered». Statistical Methods in Medical Research 6 (2):  pp. 103–114. 1997. doi:10.1191/096228097676361431. PMID 9261910. http://smm.sagepub.com/content/6/2/103.abstract. 
  4. Samuels (1991).
  5. "Jeremy Siegel" (2007). Stocks for the Long Run, 4th edition. McGraw–Hill. ISBN 978-0071494700. , p. 13, pp. 28–9