Análisis de la regresión

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística, el análisis de regresión es un proceso estadístico para la estimación de relaciones entre variables. Incluye muchas técnicas para el modelado y análisis de diversas variables, cuando la atención se centra en la relación entre una variable dependiente y una o más variables independientes. Más específicamente, el análisis de regresión ayuda a entender cómo el valor típico de la variable dependiente cambia cuando cualquiera de las variables independientes es variada, mientras que se mantienen las otras variables independientes fijas. Más comúnmente, el análisis de regresión estima la esperanza condicional de la variable dependiente dadas las variables independientes - es decir, el valor promedio de la variable dependiente cuando se fijan las variables independientes. Con menor frecuencia, la atención se centra en un cuantil, u otro parámetro de localización de la distribución condicional de la variable dependiente dadas las variables independientes. En todos los casos, el objetivo es la estimación de una función de las variables independientes llamada la función de regresión. En el análisis de regresión, también es de interés para caracterizar la variación de la variable dependiente en torno a la función de regresión que puede ser descrito por una distribución de probabilidad.

El análisis de regresión es ampliamente utilizado para la predicción y previsión, donde su uso tiene superposición sustancial en el campo de aprendizaje automático. El análisis de regresión se utiliza también para comprender que cuales de las variables independientes están relacionadas con la variable dependiente, y explorar las formas de estas relaciones. En circunstancias limitadas, el análisis de regresión puede utilizarse para inferir relaciones causales entre las variables independientes y dependientes. Sin embargo, esto puede llevar a ilusiones o falsas relaciones, por lo que se recomienda precaución, [1] por ejemplo, la correlación no implica causalidad.

Se han desarrollado muchas técnicas para llevar a cabo análisis de regresión. Métodos familiares tales como regresión lineal y ordinaria de mínimos cuadrados de regresión son paramétrica , en que la función de regresión se define en términos de un número finito de desconocidos parámetros que se estiman a partir de los datos . regresión no paramétrica se refiere a las técnicas que permiten que la función de regresión mienta en un conjunto específico de funciones , que puede ser de dimensión infinita.

El desempeño de los métodos de análisis de regresión en la práctica depende de la forma del proceso de generación de datos , y cómo se relaciona con el método de regresión que se utiliza. Dado que la forma verdadera del proceso de generación de datos generalmente no se conoce, el análisis de regresión depende a menudo hasta cierto punto de hacer suposiciones acerca de este proceso. Estos supuestos son a veces comprobable si una cantidad suficiente de datos está disponible. Los modelos de regresión para la predicción a menudo son útiles incluso cuando los supuestos son violados moderadamente, aunque pueden no funcionar de manera óptima. Sin embargo, en muchas aplicaciones, sobre todo con pequeños efectos o las cuestiones de causalidad sobre la base de los datos de observación , métodos de regresión pueden dar resultados engañosos.[2] [3]

Historia[editar]

La primera forma de regresión fue el método de mínimos cuadrados, que fue publicado por Legendre en 1805,[4] y por Gauss en 1809.[5] Legendre y Gauss tanto aplicaron el método para el problema de determinar, a partir de observaciones astronómicas, la órbitas de los cuerpos sobre el Sol (la mayoría de los cometas, sino también más tarde el entonces recién descubiertos planetas menores). Gauss publicó un desarrollo posterior de la teoría de los mínimos cuadrados en 1821,[6] incluyendo una versión del teorema de Gauss-Markov .

El término "regresión" fue acuñado por Francis Galton en el siglo XIX para describir un fenómeno biológico. El fenómeno fue que las alturas de los descendientes de ancestros altos tienden a regresar hacia abajo, hacia un promedio normal (un fenómeno conocido como regresión hacia la media ).[7] [8] Para Galton, la regresión sólo tenía este significado biológico,[9] [10] , pero su trabajo se extendió más tarde por Udny Yule y Karl Pearson a un contexto estadístico más general.[11] [12] En la obra de Yule y Pearson, la distribución conjunta de la respuesta y las variables explicativas se supone que es de Gauss . Esta suposición se vio debilitada por RA Fisher en sus obras de 1922 y 1925.[13] [14] [15] Fisher supone que la distribución condicional de la variable de respuesta es de Gauss, pero la distribución conjunta no es necesario. A este respecto, la asunción de Fisher está más cerca de la formulación de Gauss de 1821.

En los años 1950 y 1960, los economistas utilizan calculadoras electromecánicas para calcular regresiones. Antes de 1970, a veces tardaba hasta 24 horas para recibir el resultado de una regresión.[16]

Los métodos de regresión siguen siendo un área de investigación activa. En las últimas décadas, los nuevos métodos han sido desarrollados para la regresión robusta, la regresión que implica respuestas correlacionadas, tales como series de tiempo y las curvas de crecimiento, regresión en la que los predictores o variables de respuesta son curvas, imágenes, gráficos y otros objetos de datos complejos, los métodos de regresión Aceptar varios tipos de datos faltantes, la regresión no paramétrica , bayesianos métodos de regresión, regresión en el que las variables de predicción se miden con error, regresión con más variables predictoras que las observaciones y la inferencia causal con la regresión.

Modelos de regresión[editar]

Regresión lineal[editar]

  • Regresión lineal simple

Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una función simple (lineal) de X que nos permita aproximar Y mediante: Ŷ = a + bX

a (ordenada en el origen, constante)
b (pendiente de la recta)
A la cantidad e=Y-Ŷ se le denomina residuo o error residual.

Así, en el ejemplo de Pearson: Ŷ = 85 cm + 0,5X

Donde Ŷ es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del padre.
  • Regresión lineal múltiple

Regresión no lineal[editar]

Véase también[editar]

Referencias[editar]

  1. Armstrong, J. Scott (2012). «Illusions in Regression Analysis». International Journal of Forecasting (forthcoming) 28 (3):  pp. 689. doi:10.1016/j.ijforecast.2012.02.001. http://upenn.academia.edu/JArmstrong/Papers/1162346/Illusions_in_Regression_Analysis. 
  2. David A. Freedman, Statistical Models: Theory and Practice, Cambridge University Press (2005)
  3. R. Dennis Cook; Sanford Weisberg Criticism and Influence Analysis in Regression, Sociological Methodology, Vol. 13. (1982), pp. 313–361
  4. A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.
  5. C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
  6. C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
  7. Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. p. 59. ISBN 0-7575-1181-3. 
  8. «Kinship and Correlation (reprinted 1989)». Statistical Science (Institute of Mathematical Statistics) 4 (2):  pp. 80–86. 1989. doi:10.1214/ss/1177012581. 
  9. Francis Galton. "Typical laws of heredity", Nature 15 (1877), 492–495, 512–514, 532–533. (Galton uses the term "reversion" in this paper, which discusses the size of peas.)
  10. Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton uses the term "regression" in this paper, which discusses the height of humans.)
  11. «On the Theory of Correlation». Journal of the Royal Statistical Society (Blackwell Publishing) 60 (4):  pp. 812–54. 1897. doi:10.2307/2979746. 
  12. «The Law of Ancestral Heredity». Biometrika (Biometrika Trust) 2 (2):  pp. 211–236. 1903. doi:10.1093/biomet/2.2.211. 
  13. «The goodness of fit of regression formulae, and the distribution of regression coefficients». Journal of the Royal Statistical Society (Blackwell Publishing) 85 (4):  pp. 597–612. 1922. doi:10.2307/2341124. 
  14. Ronald A. Fisher (1954). Statistical Methods for Research Workers (Twelfth edición). Edinburgh: Oliver and Boyd. ISBN 0-05-002170-2. 
  15. «Fisher and Regression». Statistical Science 20 (4):  pp. 401–417. 2005. doi:10.1214/088342305000000331. 
  16. Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? March 2006. Accessed 2011-12-03.

Enlaces externos[editar]