Mínimas desviaciones absolutas

Las Mínimas desviaciones absolutas (LAD, por sus siglas en inglés), también conocidas como Mínimos Errores Absolutos (LAE), es una técnica de optimización técnica similar a los de mínimos cuadrados ordinarios que intenta encontrar una función que se aproxima mucho a un conjunto de datos. En el caso simple de un conjunto de datos (x, y) , la función de aproximación es una simple "línea de tendencia" en dos dimensiones de coordenadas cartesianas. El método minimiza la suma de errores absolutos (SAE) (la suma de los valores absolutos de los "residuos" verticales entre puntos generados por la función y los puntos correspondientes en los datos). La estimación de desviaciones mínimas absolutas también surge como la estimación de máxima verosimilitud si los errores tienen una distribución de Laplace.

Formulación del problema[editar]

Supongamos que el conjunto de datos consta de los puntos (x_i, y_i) con i = 1, 2, ..., n. Queremos encontrar una función f tal que $f(x_{i})\approx y_{i}.$

Para alcanzar este objetivo, se supone que la función f es de una forma particular que contiene algunos parámetros que deben determinarse. Por ejemplo, la forma más simple sería lineal: f(x) = bx + c, donde b y c son parámetros cuyos valores no se conocen, pero que nos gustaría estimar.

Supongamos que f (x) es una función cuadrática, lo que significa que f(x) = ax² + bx + c, donde a, b y c no se conocen aún. (En general, podría ser no sólo una variable explicativa x, sino una pluralidad de variables, todos los que aparecen como argumentos de la función f.)

Ahora buscamos valores estimados de los parámetros desconocidos que minimizan la suma de los valores absolutos de los residuos:

S=\sum _{i=1}^{n}|y_{i}-f(x_{i})|.

Contrastando Mínimos Cuadrados con menos desviaciones absolutas[editar]

La siguiente es una tabla de contraste algunas propiedades del método de mínimas desviaciones absolutas con los del método de los mínimos cuadrados (para problemas no singulares).^[1]^[2]

Regresión de mínimos cuadrados	Regresión de mínimas desviaciones absolutas
No muy robusta	Robusta
Solución estable	Solución inestable
Una solución	Múltiples soluciones posibles

El método de los desvíos menos absolutos encuentra aplicaciones en muchas áreas, debido a su solidez en comparación con el método de mínimos cuadrados. Por lo menos desviaciones absolutas es robusto en los que es resistente a los valores atípicos en los datos. Esto puede ser útil en los estudios donde los valores extremos pueden ser ignoradas de manera segura y efectiva. Si es importante prestar atención a todas y todos los valores atípicos, el método de los mínimos cuadrados es una mejor opción.

La propiedad inestabilidad del método de los desvíos menos absolutos significa que, por un pequeño ajuste horizontal de un dato , la línea de regresión puede saltar una gran cantidad. El método tiene soluciones continuas para algunas configuraciones de datos; Sin embargo, moviendo un punto de referencia una pequeña cantidad, se podría "saltar pasado" una configuración que tiene múltiples soluciones que abarcan una región. Después de pasar por esta región de soluciones, la línea de desviaciones menos absoluta tiene una pendiente que puede diferir mucho de la de la línea anterior. En contraste, las soluciones de mínimos cuadrados es estable en que, para cualquier pequeño ajuste de un punto de datos, la línea de regresión siempre se moverá sólo ligeramente; es decir, los parámetros de regresión son funciones continuas de los datos.

Por último, para un determinado conjunto de datos, el método de las desviaciones absolutas menos puede producir múltiples soluciones, mientras que el método de los mínimos cuadrados siempre produce sólo una solución (la línea de regresión es único).

Otras propiedades[editar]

Existen otras propiedades únicas de la línea de desviaciones menos absoluta. En el caso de un conjunto de (x, y) de datos, la línea de desviaciones menos absoluta siempre pasará a través de al menos dos de los puntos de datos, a menos que existan múltiples soluciones. Si existen varias soluciones, entonces la región de soluciones válidas desviaciones menos absolutos será delimitado por al menos dos líneas, cada una de las cuales pasa a través de al menos dos puntos de datos. Más en general, si hay k regresores (incluyendo la constante), a continuación, al menos una superficie de regresión óptimo se pasan a través de K de los puntos de datos.^[3]^: p.936

Este "bloqueo" de la línea a los puntos de datos puede ayudar a entender la propiedad "inestabilidad": si la línea siempre se engancha a por lo menos dos puntos, la línea va a saltar entre los diferentes conjuntos de puntos como se alteran los puntos de datos. El "enganche" también ayuda a entender la propiedad "robustez": si existe un valor atípico y un mínimo absoluto línea desviaciones deben aferrarse a dos puntos de datos, el valor atípico muy probablemente no será uno de esos dos puntos, porque eso no va a minimizar la suma de las desviaciones absolutas en la mayoría de los casos.

Un caso conocido en el que existen múltiples soluciones es un conjunto de puntos simétrica respecto a una línea horizontal, como se muestra en la Figura A a continuación.

Para entender por qué hay varias soluciones en el caso que se muestra en la Figura A, considere la línea rosa en la región verde. Su suma de errores absolutos es algún valor S. Si uno fuera a inclinar la línea ligeramente hacia arriba, mientras se mantiene dentro de la región verde, la suma de errores seguiría siendo S. No cambiaría porque la distancia de cada punto a la línea crece en un lado de la línea, mientras que la distancia de cada punto en el lado opuesto de la línea disminuye por exactamente la misma cantidad. Así, la suma de errores absolutos sigue siendo el mismo. Además, dado que se puede inclinar la línea en incrementos infinitamente pequeños, esto también muestra que si hay más de una solución, hay un número infinito de soluciones.

Las variaciones, extensiones, especializaciones[editar]

El problema menor desviación absoluta puede ser extendido para incluir múltiples explanators, limitaciones y regularización , por ejemplo, un modelo lineal con restricciones lineales:^[4]

minimizar

S(\mathbf {\beta } ,b)=\sum _{i}|\mathbf {x} '_{i}\mathbf {\beta } +b-y_{i}|

sujeto a, e.g.,

\mathbf {x} '_{1}\mathbf {\beta } +b-y_{1}\leq k

donde $\mathbf {\beta }$ es un vector columna de coeficientes a ser estimados, b es un intercepto a ser estimado, x_i es un vector columna de la i-ésima observaciones sobre los diversos explanators, y i es la i-ésima observación en la variable dependiente, y k es una constante conocida.

Regularización con LASSO también se puede combinar con LAD.^[5]

Métodos de resolución[editar]

Aunque la idea de una regresión de mínimos desviaciones absoluta es tan sencillo como el de regresión de mínimos cuadrados, la línea de desviaciones menos absoluta no es tan fácil de calcular de manera eficiente. A diferencia de regresión de mínimos cuadrados, regresión desviaciones menos absoluta no tiene un método de solución analítica. Por lo tanto, se requiere un enfoque iterativo. La siguiente es una enumeración de algunas desviaciones menos absolutos métodos de solución.

Métodos basados en Simplex (tales como el algoritmo de Barrodale-Roberts^[6]) Debido a que el problema es un programa lineal, cualquiera de las muchas técnicas de programación lineal (incluyendo el método simplex, así como otros) se pueden aplicar. Mínimos cuadrados iterativamente re-ponderada^[7] Método de descenso directo de Wesolowsky^[8] Enfoque de máxima verosimilitud de Li-Arce^[9] Revise todas las combinaciones de líneas de punto a punto para la suma mínima de errores

Métodos basados en Simplex son la forma "preferido" para resolver el problema de desviaciones menos absoluta. [8] Un método simplex es un método para resolver un problema de programación lineal. El algoritmo más popular es el Barrodale-Roberts modificado Simplex algoritmo. Los algoritmos para IRLS, Método de Wesolowsky, y método de Li se pueden encontrar en el Apéndice A de,,^[10] entre otros métodos. Comprobación de todas las combinaciones de líneas que atraviesan cualquiera de los dos (x, y) puntos de datos es otro método para encontrar la línea de desviaciones menos absoluta. Puesto que se sabe que al menos una línea desviaciones menos absoluta atraviesa al menos dos puntos de datos, este método encontrará una línea mediante la comparación de la SAE de cada línea, y la elección de la línea con el más pequeño SAE. Además, si múltiples líneas tienen la misma, más pequeño SAE, a continuación, las líneas de delinear la región de múltiples soluciones. Aunque simple, este último método es ineficiente para grandes conjuntos de datos.

Referencias[editar]

↑ For a set of applets that demonstrate these differences, see the following site: http://www.math.wpi.edu/Course_Materials/SAS/lablets/7.3/73_choices.html
↑ For a discussion of LAD versus OLS, see these academic papers and reports: http://www.econ.uiuc.edu/~roger/research/rq/QRJEP.pdf and https://www.leeds.ac.uk/educol/documents/00003759.htm
↑ Branham, R. L., Jr., "Alternatives to least squares", Astronomical Journal 87, June 1982, 928–937. [1] at SAO/NASA Astrophysics Data System (ADS)
↑ Mingren Shi & Mark A. Lukas (marzo de 2002). «An L₁ estimation algorithm with degeneracy and linear constraints». Computational Statistics & Data Analysis 39 (1): 35-55. doi:10.1016/S0167-9473(01)00049-4.
↑ Li Wang, Michael D. Gordon & Ji Zhu (December 2006). «Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning». Proceedings of the Sixth International Conference on Data Mining. pp. 690-700. doi:10.1109/ICDM.2006.134.
↑ I. Barrodale & F. D. K. Roberts (1973). «An improved algorithm for discrete L₁ linear approximation». SIAM Journal on Numerical Analysis 10 (5): 839-848. Bibcode:1973SJNA...10..839B. JSTOR 2156318. doi:10.1137/0710069.
↑ E. J. Schlossmacher (diciembre de 1973). «An Iterative Technique for Absolute Deviations Curve Fitting». Journal of the American Statistical Association (Journal of the American Statistical Association, Vol. 68, No. 344) 68 (344): 857-859. JSTOR 2284512. doi:10.2307/2284512.
↑ G. O. Wesolowsky (1981). «A new descent algorithm for the least absolute value regression problem». Communications in Statistics – Simulation and Computation. B10 (5): 479-491. doi:10.1080/03610918108812224.
↑ Yinbo Li and Gonzalo R. Arce (2004). «A Maximum Likelihood Approach to Least Absolute Deviation Regression». EURASIP Journal on Applied Signal Processing 2004 (12): 1762-1769. doi:10.1155/S1110865704401139. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
↑ William A. Pfeil, Statistical Teaching Aids, Bachelor of Science thesis, Worcester Polytechnic Institute, 2006

Datos: Q4291882

[1] For a set of applets that demonstrate these differences, see the following site: http://www.math.wpi.edu/Course_Materials/SAS/lablets/7.3/73_choices.html

[2] For a discussion of LAD versus OLS, see these academic papers and reports: http://www.econ.uiuc.edu/~roger/research/rq/QRJEP.pdf and https://www.leeds.ac.uk/educol/documents/00003759.htm

[3] Branham, R. L., Jr., "Alternatives to least squares", Astronomical Journal 87, June 1982, 928–937. [1] at SAO/NASA Astrophysics Data System (ADS)

[4] Mingren Shi & Mark A. Lukas (marzo de 2002). «An L₁ estimation algorithm with degeneracy and linear constraints». Computational Statistics & Data Analysis 39 (1): 35-55. doi:10.1016/S0167-9473(01)00049-4.

[5] Li Wang, Michael D. Gordon & Ji Zhu (December 2006). «Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning». Proceedings of the Sixth International Conference on Data Mining. pp. 690-700. doi:10.1109/ICDM.2006.134.

[6] I. Barrodale & F. D. K. Roberts (1973). «An improved algorithm for discrete L₁ linear approximation». SIAM Journal on Numerical Analysis 10 (5): 839-848. Bibcode:1973SJNA...10..839B. JSTOR 2156318. doi:10.1137/0710069.

[7] E. J. Schlossmacher (diciembre de 1973). «An Iterative Technique for Absolute Deviations Curve Fitting». Journal of the American Statistical Association (Journal of the American Statistical Association, Vol. 68, No. 344) 68 (344): 857-859. JSTOR 2284512. doi:10.2307/2284512.

[8] G. O. Wesolowsky (1981). «A new descent algorithm for the least absolute value regression problem». Communications in Statistics – Simulation and Computation. B10 (5): 479-491. doi:10.1080/03610918108812224.

[9] Yinbo Li and Gonzalo R. Arce (2004). «A Maximum Likelihood Approach to Least Absolute Deviation Regression». EURASIP Journal on Applied Signal Processing 2004 (12): 1762-1769. doi:10.1155/S1110865704401139. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).

[Pfeil-10] William A. Pfeil, Statistical Teaching Aids, Bachelor of Science thesis, Worcester Polytechnic Institute, 2006

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]