Regresión robusta

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En Estadística robusta, una regresión robusta es una forma de análisis de la regresión diseñada para eludir algunas limitaciones tradicionales de los métodos paramétricos y no paramétricos. El análisis de regresión busca encontrar la relación entre una o más variables independientes y una variable dependiente. Algunos métodos utilizados de regresión, como mínimos cuadrados ordinarios, tienen propiedades favorables si sus suposiciones subyacentes se cumplen para los datos estudiados, pero pueden dar resultados engañosos si esas suposiciones no son ciertas; se dice que mínimos cuadrados ordinarios no es robusto a violaciónes de los supuestos. Los métodos de regresión robusta están diseñados para no ser excesivamente afectados por violaciónes de los supuestos por el proceso de generación de datos subyacente.

En particular, las estimaciones con los mínimos cuadrados son altamente no robustos a los valores atípicos. Si bien no existe una definición exacta de un valor atípico o de una observación atípica, los valores atípicos son observaciones que no siguen el patrón de las otras observaciones. Esto no es normalmente un problema si el valor atípico es simplemente una observación extrema extraída de la cola de una distribución normal, pero si los resultados atípicos de error de medición no normal o alguna otra violación de supuestos ordinarios de mínimos cuadrados estándar, entonces se compromete la validez de los resultados de la regresión si se utiliza una técnica de regresión no-robusta.

Aplicaciones[editar]

Errores heteroscedásticos[editar]

Un caso en el que la estimación robusta se debe considerar es cuando hay una fuerte sospecha de heterocedasticidad. En el modelo homoscedástico, se asume que la varianza del término de error es constante para todos los valores de x. Heteroscedasticidad permite la variación que dependerá de x, que es más preciso para muchos escenarios reales. Por ejemplo, la variación del gasto suele ser mayor para las personas con ingresos más altos que para las personas con ingresos más bajos. Los paquetes de software normalmente por defecto a una modelo homoscedástica, a pesar de que este modelo puede ser menos precisa que un modelo heteroscedastic. Un enfoque simple (Tofallis, 2008) es la aplicación de mínimos cuadrados a los errores porcentuales ya que esto reduce la influencia de los valores más grandes de la variable dependiente en comparación con los mínimos cuadrados ordinarios.

La presencia de valores atípicos[editar]

Otra situación común en la que se utiliza estimación robusta se produce cuando los datos contienen valores atípicos. En presencia de valores atípicos que no provienen de un mismo proceso de generación de datos que el resto de los datos, la estimación por mínimos cuadrados es ineficaz y puede estar sesgada. Debido a que las predicciones con mínimos cuadrados son arrastradas hacia los valores atípicos, y debido a que la varianza de las estimaciones se inflan artificialmente, el resultado es que los valores atípicos se pueden enmascarar. (En muchas situaciones, como algunas zonas de la geoestadística y estadísticas médicas, son precisamente los valores atípicos los que son de interés.)

Aunque a veces se afirma que los mínimos cuadrados (o métodos estadísticos clásicos en general) son robustos, sólo son robustos en el sentido de que el tipo I tasa de error no aumenta bajo violaciónes del modelo. De hecho, el tipo I tasa de error tiende a ser más bajo que el nivel nominal cuando los valores atípicos están presentes, y con frecuencia hay un dramático incremento en la tasa de error de tipo II . La reducción de la tasa de error de tipo I ha sido etiquetado como el conservadurismo de los métodos clásicos. Otras etiquetas pueden incluir la ineficacia o inadmisibilidad.

Historia e impopularidad de la regresión robusta[editar]

A pesar de su rendimiento superior sobre la estimación de mínimos cuadrados, en muchos casos, aún no se utilizan ampliamente métodos robustos para la regresión. Hay varias razones que pueden ayudar a explicar su impopularidad (Hampel et al. 1986, 2005). Una posible razón es que hay varios métodos que compiten y el campo empezó con muchas salidas en falso. Además, el cálculo de las estimaciones robustas es mucho más computacionalmente intensivas de estimación por mínimos cuadrados, en los últimos años sin embargo, esta objeción se ha vuelto menos relevante como potencia de cálculo ha aumentado considerablemente. Otra razón puede ser que algunos paquetes populares de software estadístico no aplicaron los métodos (Stromberg, 2004). La creencia de muchos estadísticos que los métodos clásicos son robustos puede ser otra razón.

Aunque la adopción de métodos robustos han sido lentos, las estadísticas convencionales modernos libros de texto a menudo incluyen la discusión de estos métodos (por ejemplo, los libros de Seber y Lee, y Faraway, pues una buena descripción general de cómo los diferentes métodos de regresión robusta desarrollados a partir de una otra ver el libro de Andersen). Además, los paquetes de software estadísticos modernos, como R, Stata y S-PLUS incluyen una funcionalidad considerable para la estimación robusta (véase, por ejemplo, los libros de Venables y Ripley, y por Maronna et al.).

Los métodos de regresión robusta[editar]

Alternativas a los mínimos cuadrados[editar]

Los métodos más simples de estimación de parámetros en un modelo de regresión que son menos sensibles a los valores atípicos que las estimaciones de mínimos cuadrados, es el uso de Mínimas desviaciones absolutas. Incluso entonces, los valores extremos graves aún puede tener un impacto considerable en el modelo, motivando la investigación sobre enfoques aún más robustos.

En 1973, Peter J. Huber presentó los modelos de regresión M-estimación. La M enlas siglas de M-estimación son por "Tipo de máxima verosimilitud". El método es robusto a los valores atípicos en la variable de respuesta, pero resultó no ser resistente a los valores atípicos en las variables explicativas (puntos de influencia). De hecho, cuando hay valores extremos en las variables explicativas, el método no tiene ninguna ventaja sobre los mínimos cuadrados.

En la década de 1980, se propusieron varias alternativas al M-estimación como intentos de superar la falta de resistencia. Mínimos cuadrados recortados (LTS) es una alternativa viable y es actualmente (2007) en la opción preferida de Rousseeuw y Ryan (1997, 2008). El Theil-Sen estimador tiene un punto de ruptura inferior LTS pero es estadísticamente eficiente y popular. Otra solución propuesta fue S-estimación. Este método encuentra una línea (plano o hiperplano) que minimiza una estimación robusta de la escala (de la que el método obtiene el S en su nombre) de los residuos. Este método es altamente resistente a los puntos de influencia, y es robusto a los valores atípicos en la respuesta. Sin embargo, se encontró también que este método es ineficaz.

Alternativas paramétricas[editar]

Otro enfoque para la estimación robusta de modelos de regresión es reemplazar la distribución normal con una distribución de cola pesada. Una distribución t con entre 4 y 6 grados de libertad se considera que es una buena elección en diferentes situaciones prácticas. La regresión bayesiana robusta, siendo totalmente paramétrica se basa en gran medida de estas distribuciones.

Bajo el supuesto de residuos t-distribuidos, la distribución es una localización escala. Es decir, x \leftarrow (x-\mu)/\sigma. Los grados de libertad de la distribución t son a veces llamados el parámetro de curtosis. Lange, Little y Taylor (1989) discuten este modelo en cierta profundidad desde un punto de vista no Bayesiano[1] . Una estudio que toma en cuenta lo bayesiano aparece en Gelman et al. (2003)[2] .

Un enfoque paramétrico alternativa es suponer que los residuos siguen una mezcla de distribuciones normales, en particular, una distribución normal contaminada en la que la mayoría de las observaciones son de una distribución normal especificada, pero una pequeña proporción son de una distribución normal con mucho mayor varianza. Eso es, los residuos tienen probabilidad 1-\varepsilon de venir de una distribución normal con varianza \sigma^2, En donde \varepsilon es pequeño, y la probabilidad \varepsilon de venir de una distribución normal con varianza c\sigma^2 para algunos c > 1

e_i \sim (1-\varepsilon) N(0, \sigma^2) + \varepsilon N(0, c\sigma^2).

Típicamente, \varepsilon < 0.1. Esto a veces se llama el \varepsilon Modelo de la contaminación.

Enfoques paramétricos tienen la ventaja de que la teoría de probabilidad proporciona un 'fuera de la plataforma' enfoque a la inferencia (aunque para los modelos de mezcla tales como la \varepsilon -Contaminación modelo, no pudo aplicarse las condiciones usuales de regularidad), y que es posible construir modelos de simulación a partir del ajuste. Sin embargo, estos modelos paramétricos todavía asumen que el modelo subyacente es literalmente cierto. Como tales, no tienen en cuenta las distribuciones residuales sesgadas o precisiones observación finitos.

Referencias[editar]

  1. «Robust statistical modeling using the t-distribution». Journal of the American Statistical Association 84 (408):  pp. 881–896. 1989. doi:10.2307/2290063. 
  2. Gelman, A.; J. B. Carlin, H. S. Stern and D. B. Rubin (2003). Bayesian Data Analysis (Second ed.). Chapman & Hall/CRC.

Bibliografía adicional[editar]

  • Andersen, R. (2008). Modern Methods for Robust Regression. Sage University Paper Series on Quantitative Applications in the Social Sciences, 07-152. 
  • Ben-Gal I., Outlier detection, In: Maimon O. and Rockach L. (Eds.) Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researchers," Kluwer Academic Publishers, 2005, ISBN 0-387-24435-2.
  • Breiman, L. (2001). «Statistical Modeling: the Two Cultures». Statistical Science 16 (3):  pp. 199–231. doi:10.1214/ss/1009213725. 
  • Faraway, J. J. (2004). Linear Models with R. Chapman & Hall/CRC. 
  • Draper, David (1988). «Rank-Based Robust Analysis of Linear Models. I. Exposition and Review». Statistical Science 3 (2):  pp. 239–257. doi:10.1214/ss/1177012915. 
  • McKean, Joseph W. (2004). «Robust Analysis of Linear Models». Statistical Science 19 (4):  pp. 562–570. doi:10.1214/088342304000000549. 
  • Gelman, A.; J. B. Carlin, H. S. Stern and D. B. Rubin (2003). Bayesian Data Analysis (Second Edition). Chapman & Hall/CRC. 
  • Hampel, F. R.; E. M. Ronchetti, P. J. Rousseeuw and W. A. Stahel (1986, 2005). Robust Statistics: The Approach Based on Influence Functions. Wiley. 
  • Lange, K. L.; R. J. A. Little and J. M. G. Taylor (1989). «Robust statistical modeling using the t-distribution». Journal of the American Statistical Association 84 (408):  pp. 881–896. doi:10.2307/2290063. 
  • Maronna, R.; D. Martin and V. Yohai (2006). Robust Statistics: Theory and Methods. Wiley. 
  • Radchenko S.G. (2005). Robust methods for statistical models estimation: Monograph. (on russian language). Кiev: РР «Sanspariel» ISBN 966-96574-0-7. pp. 504. 
  • Rousseeuw, P. J.; A. M. Leroy (1986, 2003). Robust Regression and Outlier Detection. Wiley. 
  • Ryan, T. P. (1997, 2008). Modern Regression Methods. Wiley. 
  • Seber, G. A. F.; A. J. Lee (2003). Linear Regression Analysis (Second Edition). Wiley. 
  • Stromberg, A. J. (2004). «Why write statistical software? The case of robust statistical methods». Journal of Statistical Software. 
  • Strutz, Tilo (2010). Data Fitting and Uncertainty - A practical introduction to weighted least squares and beyond. Vieweg+Teubner. ISBN 978-3-8348-1022-9. 
  • Tofallis, Chris (2008). «Least Squares Percentage Regression». Journal of Modern Applied Statistical Methods 7:  pp. 526–534. http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1406472. 
  • Venables, W. N.; B. D. Ripley (2002). Modern Applied Statistics with S. Springer.