Regresión ordinal
En estadística, la regresión ordinal (también llamada "clasificación ordinal") es un tipo de análisis de regresión que se utiliza para predecir una variable ordinal, es decir, una variable cuyo valor existe en una escala arbitraria donde solo el orden relativo entre diferentes valores es significativo. Puede considerarse un problema intermedio entre regresión y clasificación.[1][2] Ejemplos de regresión ordinal son logit ordenado y probit ordenado. La regresión ordinal aparece a menudo en las ciencias sociales, por ejemplo, en la modelización de los niveles de preferencia humanos (en una escala de, digamos, 1–5 para "muy deficiente" a "excelente"), así como en la recuperación de información. En el aprendizaje automático, la regresión ordinal también se puede llamar aprendizaje de clasificación.[3]
Modelos lineales para regresión ordinal
[editar]La regresión ordinal se puede realizar utilizando un modelo lineal generalizado (GLM) que se ajusta tanto a un vector de coeficientes como a un conjunto de umbrales a un conjunto de datos. Supongamos que uno tiene un conjunto de observaciones, representada por vectores de longitud p x1 a través de xn, con respuestas asociadas y 1 a través de yn, donde cada Yi es una variable ordinal en una escala 1, ..., K . Por simplicidad, y sin pérdida de generalidad, asumimos que y es un vector no decreciente, es decir, yi yi+1. A estos datos, se ajusta un vector de coeficiente de longitud p w y un conjunto de umbrales θ1, ..., θK−1 con la propiedad de que θ1 < θ2 < ... < θK−1. Este conjunto de umbrales divide la recta numérica real en K segmentos disjuntos, correspondientes a los K niveles de respuesta.
El modelo ahora se puede formular como
o, la probabilidad acumulada de que la respuesta y sea como máximo i viene dada por una función σ (la función de enlace inverso) aplicada a una función lineal de x. Existen varias opciones para σ; la función logística
da el modelo logit ordenado, mientras que el uso de la función probit da el modelo probit ordenado. Una tercera opción es usar una función exponencial
que da el modelo de riesgos proporcionales.[4]
Modelo de variable latente
[editar]La versión probit del modelo anterior se puede justificar asumiendo la existencia de una variable latente de valor real (cantidad no observada) y*, determinada por[5]
donde ε se distribuye normalmente con media cero y varianza unitaria, condicionada a x. La variable de respuesta y resulta de una "medición incompleta" de y*, donde uno solo determina el intervalo en el que cae y*:
Definiendo θ0 = -∞ y θK = ∞, lo anterior se puede resumir como y = k si y solo si θk−1 < y* ≤ θk.
A partir de estos supuestos, se puede derivar la distribución condicional de y como[5]
donde Φ es la función de distribución acumulativa de la distribución normal estándar y asume el papel de la función de enlace inverso σ. La probabilidad logarítmica del modelo para un solo ejemplo de entrenamiento xi, yi ahora puede expresarse como[5]
(usando el corchete de Iverson [yi = k].) La probabilidad logarítmica del modelo logit ordenado es análoga, usando la función logística en lugar de Φ.[6]
Modelos alternativos
[editar]En el aprendizaje automático, se han propuesto alternativas a los modelos de regresión ordinal de variables latentes. Un resultado temprano fue PRank, una variante del algoritmo del perceptrón que encontró múltiples hiperplanos paralelos que separaban los distintos rangos; su salida es un vector de peso w y un vector ordenado de K −1 umbrales θ, como en los modelos ordenados logit/probit. La regla de predicción para este modelo es generar el rango más pequeño k tal que wx < θk.[7]
Otros métodos se basan en el principio de aprendizaje de gran margen que también subyace a las máquinas de vectores de soporte.[8][9]
Rennie y Srebro dan otro enfoque, quienes, al darse cuenta de que "incluso evaluar la probabilidad de un predictor no es sencillo" en los modelos logit ordenado y probit ordenados, proponen ajustar modelos de regresión ordinal adaptando funciones de pérdida comunes de la clasificación (como la pérdida de bisagra y la pérdida de registro) al caso ordinal[10]
Software
[editar]ORCA (Algoritmos de clasificación y regresión ordinal) es un marco Octave/MATLAB que incluye un amplio conjunto de métodos de regresión ordinal.[11]
Los paquetes R que proporcionan métodos de regresión ordinal incluyen MASS[12] y Ordinal.[13]
Véase también
[editar]Referencias
[editar]- ↑ Winship, Christopher; Mare, Robert D. (1984). «Regression Models with Ordinal Variables». American Sociological Review 49 (4): 512-525. ISSN 0003-1224. doi:10.2307/2095465. Consultado el 10 de febrero de 2021.
- ↑
- ↑ Shashua, Amnon; Levin, Anat (2002). Ranking with large margin principle: Two approaches. NIPS.
- ↑ McCullagh, Peter (1980). «Regression models for ordinal data». Journal of the Royal Statistical Society. Series B (Methodological) 42 (2): 109-142.
- ↑ a b c Econometric Analysis of Cross Section and Panel Data (en inglés). MIT Press. 2008. ISBN 978-0-262-23258-6. OCLC 762013440. Consultado el 10 de febrero de 2021.
- ↑ Agresti, Alan (23 de octubre de 2010). «Modeling Ordinal Categorical Data». Consultado el 23 de julio de 2015.
- ↑ Crammer, Koby; Singer, Yoram (2001). Pranking with ranking. NIPS.
- ↑ Chu, Wei; Keerthi, S. Sathiya (2007). «Support vector ordinal regression». Neural Computation: 792-815. Consultado el 10 de febrero de 2021.
- ↑ Herbrich, Ralf; Graepel, Thore; Obermayer, Klaus (2000). «Large Margin Rank Boundaries for Ordinal Regression». Advances in Large Margin Classifiers. MIT Press. pp. 115-132.
- ↑ Rennie, Jason D. M.; Srebro, Nathan (2005). «Loss Functions for Preference Levels: Regression with Discrete Ordered Labels».
- ↑ «orca: Ordinal Regression and Classification Algorithms». AYRNA. 21 de noviembre de 2017. Consultado el 21 de noviembre de 2017.
- ↑ «Modern Applied Statistics with S, 4th ed». www.stats.ox.ac.uk. Consultado el 10 de febrero de 2021.
- ↑ Christensen, Rune Haubo B. (5 de junio de 2020), runehaubo/ordinal, consultado el 15 de julio de 2020.
Lecturas adicionales
[editar]- Agresti, Alan (2010). Analysis of ordinal categorical data. Hoboken, N.J: Wiley. ISBN 978-0470082898.
- Greene, William H. (2012). Econometric Analysis (Seventh edición). Boston: Pearson Education. pp. 824-842. ISBN 978-0-273-75356-8.
- Hardin, James; Hilbe, Joseph (2007). Generalized Linear Models and Extensions (2nd edición). College Station: Stata Press. ISBN 978-1-59718-014-6.