Regresión local

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En estadística, la regresión local (también conocida por sus siglas en inglés, LOESS o LOWESS), es uno de muchos métodos modernos de construcción de modelos basados en los clásicos, como la regresión lineal y no lineal.

Los métodos de regresión modernos están diseñados para abordar las situaciones en que los procedimientos clásicos no resultan adecuados o suficientes. LOESS combina la sencillez de la regresión lineal por mínimos cuadrados con la flexibilidad de la regresión no lineal mediante el ajuste de modelos sencillos sobre subconjuntos locales de datos para crear una función que describe la parte determinista de la variación en los datos punto a punto. De hecho, uno de los principales atractivos de este método es que no resulta necesario especificar una función global para ajustar un modelo a los datos.

Como contrapartida, es necesario un mayor poder de cálculo. Por ser tan tan computacionalmente intensivo, LOESS habría sido prácticamente imposible de utilizar en la época en la que se desarrolló la regresión de mínimos cuadrados. La mayoría de los otros métodos modernos para el modelado de procesos son similares a los de LOESS en este sentido. Estos métodos han sido conscientemente diseñados para utilizar nuestra actual capacidad de cálculo para alcanzar objetivos no se logran fácilmente mediante los métodos tradicionales.

La representación gráfica de una curva suave a través de un conjunto de puntos de datos usando esta técnica estadística se llama curva de LOESS. En particular, cuando cada valor suavizado está dado por una regresión cuadrática en el intervalo de los valores del eje variable criterio diagrama de dispersión. Cuando cada valor suavizado está dada por una ponderación lineal de regresión de mínimos cuadrados en el intervalo, lo que se conoce como una curva LOWESS, sin embargo, en ocasiones, ambos términos, LOWESS y LOESS se usan como sinónimos.

Definición del modelo LOESS[editar]

LOESS, propuesto originalmente por Cleveland (1979) y desarrollado por Cleveland y Devlin (1988), específicamente denota un método que es (un poco) más descriptiva localmente conocido como regresión polinómica ponderada. En cada punto en el conjunto de datos de bajo polinomio de grado se instale en un subconjunto de los datos, con motivos valores de la variable, cerca del punto cuya respuesta es que se estima. El polinomio se ajusta utilizando los mínimos cuadrados ponderados, dando más peso a los puntos cercanos al punto cuya respuesta está siendo estimado y menos peso a los puntos más lejos. El valor de la función de regresión para el punto se obtiene mediante la evaluación del polinomio local con los valores de la variable explicativa de ese punto de datos. El ajuste de loes es completa después de los valores de la función de regresión se han calculado para cada uno de los puntos de datos n. Muchos de los detalles de este método, tales como el grado del polinomio y el modelo de pesos, son flexibles. La gama de opciones para cada parte del método y los valores por defecto típico se discuten brevemente a continuación.

Conjuntos de datos locales[editar]

Los subconjuntos de los datos utilizados para el ajuste por mínimos cuadrados ponderados están determinados por un parámetro de suavización que define el ancho de banda, α. Este parámetro es un número entre \left(\lambda+1\right)/n y 1, donde λ denota el grado del polinomio local. El valor de α es la proporción de los datos utilizados en cada ajuste. El subconjunto de los datos utilizados en cada ponderada menos aptos cuadrados comprende la α n (redondeado a los siguientes puntos mayor entero) variables explicativas cuyos valores están más cerca del punto en que la respuesta es que se estima.

A α se le llama parámetro de suavización porque controla la flexibilidad de la función de regresión. Valores grandes de α producen curvas suaves; valores pequeños hacen que la curva se ajuste tal vez demasiado a los datos. En ocasiones se recomienda utilizar valores en el rango que va de 0,25 a 0,5.

Grado de los polinomios locales[editar]

Los polinomios de locales aptos para cada subconjunto de los datos casi siempre son de primer o segundo grado, es decir, de forma local, lineal (en el sentido de línea recta) o en local de segundo grado. Utilizando un polinomio de grado cero LOESS convierte en una media móvil ponderada. Este modelo local simple puede funcionar bien para algunas situaciones, pero no siempre puede aproximar la función subyacente bastante bien. Polinomios de grado superior que trabajan en la teoría, pero los modelos de rendimiento que no están realmente en el espíritu de loess. LOESS se basa en las ideas que cualquier función puede ser bien aproximada en un pequeño barrio de un polinomio de orden inferior y que los modelos simples pueden ser fácilmente adaptada a los datos. Los polinomios de alto grado tienden a overfit los datos de cada subconjunto y son numéricamente inestable, haciendo los cálculos precisos difícil.

Función de peso[editar]

Como se mencionó anteriormente, la función de peso le da más peso a los puntos de datos más cercano al punto de estimación y el menor peso a los puntos de datos que están más lejos. El uso de los pesos se basa en la idea de que los puntos cercanos entre sí en el espacio variable explicativa es más probable que se relacionan entre sí de una manera sencilla de los puntos que están más lejos. Siguiendo esta lógica, los puntos que pueden seguir el modelo de los mejores locales de influir en el parámetro de modelo local las estimaciones de la mayoría. Los puntos que es menos probable que realmente se ajusten al modelo local tienen menos influencia sobre la estimación de parámetros del modelo local.

La función de peso tradicional utilizado para loes es la triple función del peso del cubo,

w(x) = (1 - |x|^3)^3 \operatorname{I}\left[\left| x\right| < 1\right]

Sin embargo, cualquier otra función del peso que satisface las propiedades que figuran en Cleveland (1979) también podría ser utilizado. El peso de un punto específico en cualquier subconjunto localizada de la información es obtenida mediante la evaluación de la función de peso en la distancia entre ese punto y el punto de estimación, después de escalar la distancia para que la distancia máxima absoluta sobre todos los puntos en el subconjunto de datos es exactamente uno.


Ventajas[editar]

Como se mencionó anteriormente, el loess mayor ventaja tiene sobre muchos otros métodos es el hecho de que no requiere la especificación de una función para ajustar un modelo para todos los datos de la muestra. En cambio, el analista sólo tiene que proporcionar un valor de parámetro de alisado y el grado del polinomio locales. Además, LOESS es muy flexible, lo que es ideal para el modelado de procesos complejos para los que no existen modelos teóricos. Estas dos ventajas, junto con la sencillez del método, que LOESS uno de los más atractivos de los métodos modernos de regresión para aplicaciones que se ajustan al marco general de la regresión de mínimos cuadrados, pero que tienen una estructura determinista complejo.

Aunque es menos evidente que para algunos de los otros métodos relacionados con la regresión lineal por mínimos cuadrados, Loess también se acumula la mayor parte de los beneficios que normalmente compartidos por los procedimientos. El más importante de ellas es la teoría para el cálculo de incertidumbres para la predicción y la calibración. Muchos otros exámenes y procedimientos utilizados para la validación de los modelos de menos plazas también se puede extender a los modelos de loess.

Desventajas[editar]

  • LOESS hace un uso menos eficiente de los datos de los que otros métodos: necesita una muestra numerosa y densa para obtener buenos modelos. Técnicas que planetean modelos más parsimoniosos requieren menos datos.
  • Otra desventaja es que no producen una función de regresión fácilmente representable por una fórmula matemática.
  • Además, requiere cálculos complejos y computacionalmente costosos.
  • Es sensible a los efectos de valores atípicos en los datos (que afectan a los métodos bastados en distancias cuadráticas). No obstante, existe una versión robusta de LOESS [Cleveland (1979)] que se puede utilizar para reducir su sensibilidad frente a valores extremos.

Véase también[editar]

Referencias[editar]

Enlaces externos[editar]