Ir al contenido

Estadística robusta

De Wikipedia, la enciclopedia libre

La estadística robusta es una aproximación alternativa a los métodos estadísticos clásicos. El objetivo es producir estimadores que no sean afectados por variaciones pequeñas respecto a las hipótesis de los modelos.

Las estadísticas robustas intentan proporcionar métodos que emulan a los métodos clásicos, pero que no son afectados indebidamente por valores atípicos u otras pequeñas discrepancias respecto de las asunciones del modelo. En Estadística, los métodos clásicos confían en hipótesis que no se resuelven o no se verifican a menudo en la práctica. Por ejemplo, se asume a menudo que los residuales de los datos están distribuidos normalmente, por lo menos aproximadamente, o que se puede confiar en el Teorema del límite central para producir estimaciones normalmente distribuidas. Desafortunadamente, cuando hay valores atípicos en los datos, los resultados producidos por los métodos clásicos son a menudo de baja calidad.

Esto puede estudiarse empíricamente examinando la distribución muestral de varios estimadores bajo un modelo de mezcla, en los que se mezcla en una pequeña cantidad (1  % a 5  %) de contaminación en una muestra dada. Por ejemplo, uno puede utilizar una mezcla de 95  % de datos de una distribución normal, con el 5 % de datos de otra distribución normal con el mismo promedio pero con una desviación estándar significativamente mayor (los errores).

Para cuantificar la robustez de un método, es necesario definir algunas medidas de robustez. Quizás las más comunes de estas medidas sean el punto de quiebre y la función de influencia.

Las estadísticas paramétricas robustas tienden a confiar en el reemplazo de la distribución normal de los métodos clásicos por la distribución T con grados de libertad bajos (alta curtosis; se ha encontrado que a menudo grados de libertad de entre 4 y 6 son útiles en la práctica) o con una mezcla de dos o más distribuciones.

Ejemplos de estadísticos robustos y no robustos

[editar]
  • La mediana es una medida robusta de tendencia central, mientras que el promedio no. La mediana tiene un punto de quiebre de 50  %, mientras que el promedio tiene un punto de quiebre de 0  % (una única medición muy grande o muy pequeña puede alterarlo significativamente).
  • La desviación absoluta respecto a la mediana (MAD = Median Absolute Deviation) y el rango intercuartílico son medidas robustas de dispersión estadística, mientras que la desviación estándar y el rango no lo son.
  • El Teorema de Masreliez es un tipo de filtro de Kalman robusto.
  • Media Robusta de una población