Regresión ordinal

En estadística, la regresión ordinal (también llamada "clasificación ordinal") es un tipo de análisis de regresión que se utiliza para predecir una variable ordinal, es decir, una variable cuyo valor existe en una escala arbitraria donde solo el orden relativo entre diferentes valores es significativo. Puede considerarse un problema intermedio entre regresión y clasificación.^[1]^[2] Ejemplos de regresión ordinal son logit ordenado y probit ordenado. La regresión ordinal aparece a menudo en las ciencias sociales, por ejemplo, en la modelización de los niveles de preferencia humanos (en una escala de, digamos, 1–5 para "muy deficiente" a "excelente"), así como en la recuperación de información. En el aprendizaje automático, la regresión ordinal también se puede llamar aprendizaje de clasificación.^[3]

Modelos lineales para regresión ordinal

La regresión ordinal se puede realizar utilizando un modelo lineal generalizado (GLM) que se ajusta tanto a un vector de coeficientes como a un conjunto de umbrales a un conjunto de datos. Supongamos que uno tiene un conjunto de observaciones, representada por vectores de longitud p $x 1$ a través de $x n$ , con respuestas asociadas y ₁ a través de y_n, donde cada Y_i es una variable ordinal en una escala 1, ..., K . Por simplicidad, y sin pérdida de generalidad, asumimos que y es un vector no decreciente, es decir, $\leq$ . A estos datos, se ajusta un vector de coeficiente de longitud p w y un conjunto de umbrales $θ 1, ..., θ K -1$ con la propiedad de que $θ 1 < θ 2 < ... < θ K -1$ . Este conjunto de umbrales divide la recta numérica real en K segmentos disjuntos, correspondientes a los K niveles de respuesta.

El modelo ahora se puede formular como

\Pr(y\leq i|\mathbf {x} )=\sigma (\theta _{i}-\mathbf {w} \cdot \mathbf {x} )

o, la probabilidad acumulada de que la respuesta y sea como máximo i viene dada por una función $σ$ (la función de enlace inverso) aplicada a una función lineal de x. Existen varias opciones para $σ$ ; la función logística

\sigma (\theta _{i}-\mathbf {w} \cdot \mathbf {x} )={\frac {1}{1+e^{-(\theta _{i}-\mathbf {w} \cdot \mathbf {x} )}}}

da el modelo logit ordenado, mientras que el uso de la función probit da el modelo probit ordenado. Una tercera opción es usar una función exponencial

\sigma (\theta _{i}-\mathbf {w} \cdot \mathbf {x} )=\exp(-\exp(\theta _{i}-\mathbf {w} \cdot \mathbf {x} ))

que da el modelo de riesgos proporcionales.^[4]

Modelo de variable latente

La versión probit del modelo anterior se puede justificar asumiendo la existencia de una variable latente de valor real (cantidad no observada) $y*$ , determinada por^[5]

y^{*}=\mathbf {w} \cdot \mathbf {x} +\varepsilon

donde $ε$ se distribuye normalmente con media cero y varianza unitaria, condicionada a x. La variable de respuesta y resulta de una "medición incompleta" de $y*$ , donde uno solo determina el intervalo en el que cae $y*$ :

y={\begin{cases}1~~{\text{if}}~~y^{*}\leq \theta _{1},\\2~~{\text{if}}~~\theta _{1}<y^{*}\leq \theta _{2},\\3~~{\text{if}}~~\theta _{2}<y^{*}\leq \theta _{3}\\\vdots \\K~~{\text{if}}~~\theta _{K-1}<y^{*}.\end{cases}}

Definiendo $θ 0 = -\infty$ y $θ K = \infty$ , lo anterior se puede resumir como $y = k$ si y solo si $θ k -1 < y * \leq θ k$ .

A partir de estos supuestos, se puede derivar la distribución condicional de $y$ como^[5]

{\begin{aligned}P(y=k|\mathbf {x} )&=P(\theta _{k-1}<y^{*}\leq \theta _{k}|\mathbf {x} )\\&=P(\theta _{k-1}<\mathbf {w} \cdot \mathbf {x} +\varepsilon \leq \theta _{k})\\&=\Phi (\theta _{k}-\mathbf {w} \cdot \mathbf {x} )-\Phi (\theta _{k-1}-\mathbf {w} \cdot \mathbf {x} )\end{aligned}}

donde $Φ$ es la función de distribución acumulativa de la distribución normal estándar y asume el papel de la función de enlace inverso σ. La probabilidad logarítmica del modelo para un solo ejemplo de entrenamiento x_i, y_i ahora puede expresarse como^[5]

\log {\mathcal {L}}(\mathbf {w} ,\mathbf {\theta } |\mathbf {x} _{i},y_{i})=\sum _{k=1}^{K}[y_{i}=k]\log[\Phi (\theta _{k}-\mathbf {w} \cdot \mathbf {x} _{i})-\Phi (\theta _{k-1}-\mathbf {w} \cdot \mathbf {x} _{i})]]

(usando el corchete de Iverson $[y i = k]$ .) La probabilidad logarítmica del modelo logit ordenado es análoga, usando la función logística en lugar de $Φ$ .^[6]

Modelos alternativos

En el aprendizaje automático, se han propuesto alternativas a los modelos de regresión ordinal de variables latentes. Un resultado temprano fue PRank, una variante del algoritmo del perceptrón que encontró múltiples hiperplanos paralelos que separaban los distintos rangos; su salida es un vector de peso w y un vector ordenado de K −1 umbrales $θ$ , como en los modelos ordenados logit/probit. La regla de predicción para este modelo es generar el rango más pequeño k tal que $wx < θ k$ .^[7]

Otros métodos se basan en el principio de aprendizaje de gran margen que también subyace a las máquinas de vectores de soporte.^[8]^[9]

Rennie y Srebro dan otro enfoque, quienes, al darse cuenta de que "incluso evaluar la probabilidad de un predictor no es sencillo" en los modelos logit ordenado y probit ordenados, proponen ajustar modelos de regresión ordinal adaptando funciones de pérdida comunes de la clasificación (como la pérdida de bisagra y la pérdida de registro) al caso ordinal^[10]

Software

ORCA (Algoritmos de clasificación y regresión ordinal) es un marco Octave/MATLAB que incluye un amplio conjunto de métodos de regresión ordinal.^[11]

Los paquetes R que proporcionan métodos de regresión ordinal incluyen MASS^[12] y Ordinal.^[13]

Véase también

Regresión logística

Referencias

↑ Winship, Christopher; Mare, Robert D. (1984). «Regression Models with Ordinal Variables». American Sociological Review 49 (4): 512-525. ISSN 0003-1224. doi:10.2307/2095465. Consultado el 10 de febrero de 2021.
↑ Gutiérrez, P. A.; Pérez-Ortiz, M.; Sánchez-Monedero, J.; Fernández-Navarro, F.; Hervás-Martínez, C. (2016-01). «Ordinal Regression Methods: Survey and Experimental Study». IEEE Transactions on Knowledge and Data Engineering 28 (1): 127-146. ISSN 1558-2191. doi:10.1109/TKDE.2015.2457911. Consultado el 10 de febrero de 2021.
↑ Shashua, Amnon; Levin, Anat (2002). Ranking with large margin principle: Two approaches. NIPS.
↑ McCullagh, Peter (1980). «Regression models for ordinal data». Journal of the Royal Statistical Society. Series B (Methodological) 42 (2): 109-142.
↑ ^a ^b ^c Econometric Analysis of Cross Section and Panel Data (en inglés). MIT Press. 2008. ISBN 978-0-262-23258-6. OCLC 762013440. Consultado el 10 de febrero de 2021.
↑ Agresti, Alan (23 de octubre de 2010). «Modeling Ordinal Categorical Data». Consultado el 23 de julio de 2015.
↑ Crammer, Koby; Singer, Yoram (2001). Pranking with ranking. NIPS.
↑ Chu, Wei; Keerthi, S. Sathiya (2007). «Support vector ordinal regression». Neural Computation: 792-815. Consultado el 10 de febrero de 2021.
↑ Herbrich, Ralf; Graepel, Thore; Obermayer, Klaus (2000). «Large Margin Rank Boundaries for Ordinal Regression». Advances in Large Margin Classifiers. MIT Press. pp. 115-132.
↑ Rennie, Jason D. M.; Srebro, Nathan (2005). «Loss Functions for Preference Levels: Regression with Discrete Ordered Labels».
↑ «orca: Ordinal Regression and Classification Algorithms». AYRNA. 21 de noviembre de 2017. Consultado el 21 de noviembre de 2017.
↑ «Modern Applied Statistics with S, 4th ed». www.stats.ox.ac.uk. Consultado el 10 de febrero de 2021.
↑ Christensen, Rune Haubo B. (5 de junio de 2020), runehaubo/ordinal, consultado el 15 de julio de 2020 .

Lecturas adicionales

Agresti, Alan (2010). Analysis of ordinal categorical data. Hoboken, N.J: Wiley. ISBN 978-0470082898.
Greene, William H. (2012). Econometric Analysis (Seventh edición). Boston: Pearson Education. pp. 824-842. ISBN 978-0-273-75356-8.
Hardin, James; Hilbe, Joseph (2007). Generalized Linear Models and Extensions (2nd edición). College Station: Stata Press. ISBN 978-1-59718-014-6.

Datos: Q7100793

[1] Winship, Christopher; Mare, Robert D. (1984). «Regression Models with Ordinal Variables». American Sociological Review 49 (4): 512-525. ISSN 0003-1224. doi:10.2307/2095465. Consultado el 10 de febrero de 2021.

[2] Gutiérrez, P. A.; Pérez-Ortiz, M.; Sánchez-Monedero, J.; Fernández-Navarro, F.; Hervás-Martínez, C. (2016-01). «Ordinal Regression Methods: Survey and Experimental Study». IEEE Transactions on Knowledge and Data Engineering 28 (1): 127-146. ISSN 1558-2191. doi:10.1109/TKDE.2015.2457911. Consultado el 10 de febrero de 2021.

[3] Shashua, Amnon; Levin, Anat (2002). Ranking with large margin principle: Two approaches. NIPS.

[mccullagh-4] McCullagh, Peter (1980). «Regression models for ordinal data». Journal of the Royal Statistical Society. Series B (Methodological) 42 (2): 109-142.

[wooldridge-5] Econometric Analysis of Cross Section and Panel Data (en inglés). MIT Press. 2008. ISBN 978-0-262-23258-6. OCLC 762013440. Consultado el 10 de febrero de 2021.

[6] Agresti, Alan (23 de octubre de 2010). «Modeling Ordinal Categorical Data». Consultado el 23 de julio de 2015.

[7] Crammer, Koby; Singer, Yoram (2001). Pranking with ranking. NIPS.

[8] Chu, Wei; Keerthi, S. Sathiya (2007). «Support vector ordinal regression». Neural Computation: 792-815. Consultado el 10 de febrero de 2021.

[9] Herbrich, Ralf; Graepel, Thore; Obermayer, Klaus (2000). «Large Margin Rank Boundaries for Ordinal Regression». Advances in Large Margin Classifiers. MIT Press. pp. 115-132.

[10] Rennie, Jason D. M.; Srebro, Nathan (2005). «Loss Functions for Preference Levels: Regression with Discrete Ordered Labels».

[11] «orca: Ordinal Regression and Classification Algorithms». AYRNA. 21 de noviembre de 2017. Consultado el 21 de noviembre de 2017.

[12] «Modern Applied Statistics with S, 4th ed». www.stats.ox.ac.uk. Consultado el 10 de febrero de 2021.

[13] Christensen, Rune Haubo B. (5 de junio de 2020), runehaubo/ordinal, consultado el 15 de julio de 2020 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]