Ir al contenido

Dilema sesgo-varianza

De Wikipedia, la enciclopedia libre

En estadística y aprendizaje automático, el dilema entre sesgo y varianza describe la relación entre la complejidad de un modelo, la exactitud de sus predicciones y su capacidad para realizar predicciones sobre datos no observados previamente que no se utilizaron para entrenar el modelo. En general, a medida que aumentamos el número de parámetros ajustables en un modelo, éste se vuelve más flexible y puede ajustarse mejor a un conjunto de datos de entrenamiento. Se dice que tiene menos error o sesgo. Sin embargo, para los modelos más flexibles, tenderá a haber una mayor varianza en el ajuste del modelo cada vez que tomemos un conjunto de muestras para crear un nuevo conjunto de datos de entrenamiento. Se dice que hay una mayor varianza en los parámetros estimados del modelo.

El dilema sesgo-varianza o problema sesgo-varianza es el conflicto al intentar minimizar simultáneamente estas dos fuentes de error que impiden a los algoritmos de aprendizaje supervisado generalizar más allá de su conjunto de entrenamiento:[1][2]

  • El error de sesgo es un error derivado de suposiciones erróneas en el algoritmo de aprendizaje. Un sesgo elevado puede hacer que un algoritmo no detecte las relaciones relevantes entre las características y las salidas objetivo (infraajuste).
  • La varianza es un error de sensibilidad a pequeñas fluctuaciones en el conjunto de entrenamiento. Una varianza elevada puede deberse a que un algoritmo modele el ruido aleatorio de los datos de entrenamiento (sobreajuste).

La descomposición sesgo-varianza es una forma de analizar el error de generalización esperado de un algoritmo de aprendizaje con respecto a un problema concreto como una suma de tres términos, el sesgo, la varianza y una cantidad denominada error irreducible, resultante del ruido en el propio problema.

Motivación[editar]

Alto sesgo, baja varianza
Alto sesgo, baja varianza 
Alto sesgo, alta varianza
Alto sesgo, alta varianza  
Bajo sesgo, baja varianza
Bajo sesgo, baja varianza 
Bajo sesgo, alta varianza
Bajo sesgo, alta varianza  


El dilema sesgo y varianza es un problema central en el aprendizaje supervisado. Lo ideal es elegir un modelo que capte con precisión las regularidades de los datos de entrenamiento y, al mismo tiempo, generalice bien los datos no observados. Por desgracia, suele ser imposible hacer ambas cosas a la vez. Los métodos de aprendizaje de alta varianza pueden representar bien su conjunto de entrenamiento, pero corren el riesgo de sobreajustarse a datos de entrenamiento ruidosos o poco representativos. Por el contrario, los algoritmos con un sesgo elevado suelen producir modelos más simples que pueden no captar regularidades importantes (es decir, no ajustarse lo suficiente) en los datos.

Función y datos ruidosos
Función y datos ruidosos 
[[Archivo:|center|border|180x180px|alt=|Dispersión=5 ]]
Dispersión=5  
[[Archivo:|center|border|180x180px|alt=|Dispersión=1 ]]
Dispersión=1  
Dispersión=0,1
Dispersión=0,1 
Una función (rojo) se aproxima utilizando funciones de base radial (azul). En cada gráfico se muestran varios ensayos. Para cada ensayo, se proporcionan unos pocos puntos de datos ruidosos como conjunto de entrenamiento (arriba). Para una dispersión amplia (imagen 2), el sesgo es alto: las funciones de base radial no pueden aproximarse completamente a la función (especialmente al buzamiento central), pero la varianza entre los distintos ensayos es baja. A medida que disminuye la dispersión (imágenes 3 y 4), disminuye el sesgo: las curvas azules se aproximan más a las rojas. Sin embargo, dependiendo del ruido en los diferentes ensayos, la varianza entre ensayos aumenta. En la imagen inferior, los valores aproximados para x=0 varían mucho en función de la ubicación de los puntos de datos.

Es una falacia frecuente[3][4]​ suponer que los modelos complejos deben tener una varianza elevada. Los modelos de alta varianza son "complejos" en cierto sentido, pero lo contrario no tiene por qué ser cierto.[5]​ Además, hay que tener cuidado con la forma de definir la complejidad. En concreto, el número de parámetros utilizados para describir el modelo no es una buena medida de la complejidad. Esto se ilustra con un ejemplo adaptado de:[6]​ el modelo tiene solo dos parámetros () pero puede interpolar cualquier número de puntos oscilando con una frecuencia suficientemente alta, lo que da como resultado un sesgo y una varianza elevados.

Se puede establecer una analogía con la relación entre exactitud y precisión.[7]​ La exactitud es una descripción del sesgo y puede mejorarse intuitivamente seleccionando sólo a partir de información local. Por consiguiente, una muestra parecerá precisa (es decir, tendrá un sesgo bajo) en las condiciones de selección mencionadas, pero puede dar lugar a un ajuste insuficiente. En otras palabras, los datos de prueba pueden no coincidir tanto con los datos de entrenamiento, lo que indicaría imprecisión y, por tanto, una varianza inflada. Un ejemplo gráfico sería un ajuste de línea recta a datos que muestran un comportamiento cuadrático en general. La precisión es una descripción de la varianza y, por lo general, sólo puede mejorarse seleccionando información de un espacio comparativamente mayor. La posibilidad de seleccionar muchos puntos de datos en un amplio espacio muestral es la condición ideal para cualquier análisis. Sin embargo, las restricciones intrínsecas (ya sean físicas, teóricas, computacionales, etc.) siempre desempeñarán un papel limitador. El caso límite en el que sólo se selecciona un número finito de puntos de datos en un amplio espacio muestral puede mejorar la precisión y reducir la varianza en general, pero también puede dar lugar a una dependencia excesiva de los datos de entrenamiento (sobreajuste)[8]​. Esto significa que los datos de prueba tampoco coincidirían tanto con los datos de entrenamiento, pero en este caso la razón es la inexactitud o el alto sesgo. Tomando prestado del ejemplo anterior, la representación gráfica aparecería como un ajuste polinómico de alto orden a los mismos datos que muestran un comportamiento cuadrático. Obsérvese que el error en cada caso se mide de la misma manera, pero la razón atribuida al error es diferente dependiendo del equilibrio entre sesgo y varianza. Para mitigar la cantidad de información que se utiliza de las observaciones vecinas, se puede suavizar un modelo mediante una regularización explícita, como la contracción.

Descomposición sesgo-varianza del error cuadrático medio[editar]

Supongamos que tenemos un conjunto de entrenamiento formado por un conjunto de puntos y valores reales asociado a cada punto . Suponemos que los datos son generados por una función tales como , donde el ruido, tiene media y varianza cero .

Sesgo y varianza en función de la complejidad del modelo

Queremos encontrar una función que se aproxime a la función verdadera lo mejor posible, mediante algún algoritmo de aprendizaje basado en un conjunto de datos de entrenamiento (muestra) . Precisamos "lo mejor posible" midiendo el error cuadrático medio entre y : queremos que sea mínimo, ambos para y para puntos fuera de nuestra muestra. Por supuesto, no podemos esperar hacerlo a la perfección, ya que contiene ruido esto significa que debemos estar preparados para aceptar un error irreductible en cualquier función que se nos ocurra.[9]

Encontrar una que generalice a puntos fuera del conjunto de entrenamiento puede hacerse con cualquiera de los innumerables algoritmos utilizados para el aprendizaje supervisado. Resulta que cualquier función que seleccionemos, podemos descomponer su error esperado en una muestra no vista (es decir, condicional a x) de la siguiente manera:[10][11]

Donde

y

La expectativa varía en función de las distintas opciones del conjunto de entrenamiento , todos muestreados a partir de la misma distribución conjunta lo que puede hacerse, por ejemplo, mediante bootstrapping. Los tres términos representan:

  • el cuadrado del sesgo del método de aprendizaje, que puede considerarse como el error causado por los supuestos simplificadores incorporados al método. Por ejemplo, al aproximar una función no lineal utilizando un método de aprendizaje para modelos lineales, habrá error en las estimaciones debido a este supuesto;
  • la varianza del método de aprendizaje o, intuitivamente, en qué medida el método de aprendizaje se moverá alrededor de su media;
  • el error irreducible

Como los tres términos son no negativos, el error irreducible constituye un límite inferior del error esperado en muestras no vistas.[10]

Cuanto más complejo sea el modelo es más puntos de datos captará y menor será el sesgo. Sin embargo, la complejidad hará que el modelo se "mueva" más para captar los puntos de datos y, por tanto, su varianza será mayor.

Derivación[editar]

La derivación de la descomposición sesgo-varianza para el error cuadrático procede como sigue.[12][13]​ Para mayor comodidad, abreviaremos , y soltamos en nuestros operadores de expectativas.

Procedamos a escribir el error cuadrático medio de nuestro modelo:

En primer lugar, dado que modelamos , demostramos que:

En segundo lugar,

Finalmente,

Finalmente, insertamos estas 3 fórmulas en nuestra derivación anterior de y así demostrar que:

Por último, la función de pérdida MSE (o log-verosimilitud negativa) se obtiene tomando el valor de la expectativa sobre :

Enfoques[editar]

La reducción de la dimensionalidad y la selección de características pueden reducir la varianza al simplificar los modelos. Del mismo modo, un conjunto de entrenamiento mayor tiende a reducir la varianza. La adición de características (predictores) tiende a reducir el sesgo, a expensas de introducir una varianza adicional. Los algoritmos de aprendizaje suelen tener algunos parámetros ajustables que controlan el sesgo y la varianza; por ejemplo:

  • Los modelos lineales y lineales generalizados pueden regularizarse para disminuir su varianza a costa de aumentar su sesgo.[14]
  • En las redes neuronales artificiales, la varianza aumenta y el sesgo disminuye a medida que aumenta el número de unidades ocultas,[15]​ aunque esta suposición clásica ha sido objeto de debate recientemente.[4]​ Al igual que en los MLG, se suele aplicar regularización.
  • En los modelos de k vecinos más próximos, un valor alto de k conduce a un sesgo alto y una varianza baja (véase más abajo).
  • En el aprendizaje basado en instancias, la regularización puede lograrse variando la mezcla de prototipos y ejemplares.[16]
  • En los árboles de decisión, la profundidad del árbol determina la varianza. Los árboles de decisión suelen podarse para controlar la varianza.[10]

Una forma de resolver esta disyuntiva es utilizar modelos mixtos y el aprendizaje por conjuntos.[17][18]​ Por ejemplo, el boosting combina muchos modelos "débiles" (con un sesgo alto) en un conjunto que tiene un sesgo menor que los modelos individuales, mientras que el bagging combina aprendices "fuertes" de forma que se reduce su varianza.

Los métodos de validación de modelos, como la validación cruzada (estadística), pueden utilizarse para afinar los modelos con el fin de optimizar el equilibrio.

k-vecinos más próximos[editar]

En el caso de la regresión k-vecinos más próximos, cuando la expectativa se toma sobre el posible etiquetado de un conjunto de entrenamiento fijo, existe una expresión de forma cerrada que relaciona la descomposición sesgo-varianza con el parámetro k:[11]

Donde son los k vecinos más próximos de x en el conjunto de entrenamiento. El sesgo (primer término) es una función monótona creciente de k, mientras que la varianza (segundo término) disminuye a medida que aumenta k. De hecho, en "supuestos razonables", el sesgo del estimador del primer vecino más próximo (1-NN) desaparece por completo a medida que el tamaño del conjunto de entrenamiento se aproxima a infinito.

Aplicaciones[editar]

En regresión[editar]

La descomposición sesgo-varianza constituye la base conceptual de los métodos de regularización de la regresión, como Lasso y la regresión Ridge. Los métodos de regularización introducen un sesgo en la solución de regresión que puede reducir considerablemente la varianza con respecto a la solución de mínimos cuadrados ordinarios (MCO). Aunque la solución OLS proporciona estimaciones de regresión no sesgadas, las soluciones de menor varianza producidas por las técnicas de regularización proporcionan un rendimiento MSE superior.

En clasificación[editar]

La descomposición sesgo-varianza se formuló originalmente para la regresión por mínimos cuadrados. Para el caso de la clasificación bajo la pérdida 0-1 (tasa de clasificación errónea), es posible encontrar una descomposición similar.[19][20]​ Alternativamente, si el problema de clasificación se puede formular como clasificación probabilística, entonces el error cuadrático esperado de las probabilidades predichas con respecto a las probabilidades verdaderas se puede descomponer como antes.[21]

Se ha argumentado que a medida que aumentan los datos de entrenamiento, la varianza de los modelos aprendidos tenderá a disminuir y, por lo tanto, que a medida que aumenta la cantidad de datos de entrenamiento, el error se minimiza mediante métodos que aprenden modelos con menor sesgo y que, por el contrario, para cantidades de datos de entrenamiento más pequeñas es cada vez más importante minimizar la varianza.[22]

En el aprendizaje por refuerzo[editar]

Aunque la descomposición sesgo-varianza no se aplica directamente al aprendizaje por refuerzo, un equilibrio similar puede caracterizar también la generalización. Cuando un agente tiene información limitada sobre su entorno, la suboptimalidad de un algoritmo de RL puede descomponerse en la suma de dos términos: un término relacionado con un sesgo asintótico y un término debido al sobreajuste. El sesgo asintótico está directamente relacionado con el algoritmo de aprendizaje (independientemente de la cantidad de datos), mientras que el término de sobreajuste procede del hecho de que la cantidad de datos es limitada.[23]

En el aprendizaje humano[editar]

Aunque se ha debatido ampliamente en el contexto del aprendizaje automático, el dilema sesgo-varianza se ha examinado en el contexto de la cognición humana, sobre todo por Gerd Gigerenzer y sus colaboradores en el contexto de la heurística aprendida. Estos autores afirman (véanse las referencias más adelante) que el cerebro humano resuelve el dilema en el caso de los conjuntos de entrenamiento escasos y poco caracterizados que proporciona la experiencia adoptando heurísticas de alto sesgo/baja varianza. Esto refleja el hecho de que un enfoque de sesgo cero tiene poca capacidad de generalización a nuevas situaciones, y también presupone irrazonablemente un conocimiento preciso del verdadero estado del mundo. La heurística resultante es relativamente sencilla, pero produce mejores inferencias en una mayor variedad de situaciones.[24]

El dilema sesgo-varianza implica que capacidades como el reconocimiento genérico de objetos no pueden aprenderse desde cero, sino que requieren un cierto grado de "cableado duro" que posteriormente se afina con la experiencia.[15]​ Esto se debe a que los enfoques de inferencia sin modelos requieren conjuntos de entrenamiento poco prácticos para evitar una alta varianza.

Véase también[editar]

Referencias[editar]

  1. Kohavi, Ron; Wolpert, David H. (1996). «Bias Plus Variance Decomposition for Zero-One Loss Functions». ICML. 
  2. Luxburg, Ulrike V.; Schölkopf, B. (2011). «"Statistical learning theory: Models, concepts, and results".». Handbook of the History of Logic. 
  3. Neal, Brady (2019). "On the Bias-Variance Tradeoff: Textbooks Need an Update". 
  4. a b Neal, Brady; Mittal, Sarthak; Baratin, Aristide; Tantia, Vinayak; Scicluna, Matthew; Lacoste-Julien, Simon; Mitliagkas, Ioannis (2018). "A Modern Take on the Bias-Variance Tradeoff in Neural Networks". 
  5. Neal, Brady; Mittal, Sarthak; Baratin, Aristide; Tantia, Vinayak; Scicluna, Matthew; Lacoste-Julien, Simon; Mitliagkas, Ioannis (27 de septiembre de 2018). A Modern Take on the Bias-Variance Tradeoff in Neural Networks (en inglés). Consultado el 26 de junio de 2024. 
  6. The Nature of Statistical Learning Theory (en inglés). doi:10.1007/978-1-4757-3264-1. Consultado el 26 de junio de 2024. 
  7. «3 Exactitud, precisión y error». GBIF Information Architecture. 2008. 
  8. «Overfitting. Qué es, causas, consecuencias y cómo ...». Grupo Atico 34. 2021. 
  9. «Aprendizaje automático: Una introducción al error cuadrático medio y las líneas de regresión». freeCodecamp. 2021. 
  10. a b c James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2013). «An Introduction to Statistical Learning». Springer. 
  11. a b «Elements of Statistical Learning: data mining, inference, and prediction. 2nd Edition.». web.archive.org. 26 de enero de 2015. Consultado el 26 de junio de 2024. 
  12. Vijayakumar, Sethu (2007). «"The Bias–Variance Tradeoff"». University of Edinburgh. 
  13. Shakhnarovich, Greg (2011). "Notes on derivation of bias-variance decomposition in linear regression". 
  14. Belsley, David (1991). «Conditioning diagnostics : collinearity and weak data in regression.». New York (NY): Wiley. ISBN 978-0471528890. 
  15. a b Geman, Stuart; Bienenstock, Élie; Doursat, René (1992). «"Neural networks and the bias/variance dilemma"». Neural Computation. doi:10.1162/neco.1992.4.1.1. 
  16. Gagliardi, Francesco (2011). «"Instance-based classifiers applied to medical databases: diagnosis and knowledge extraction"». Artificial Intelligence in Medicine. doi:10.1016/j.artmed.2011.04.002. 
  17. Ting, Jo-Anne; Vijaykumar, Sethu; Schaal, Stefan (2011). «Locally Weighted Regression for Control». Encyclopedia of Machine Learning. 
  18. «Understanding the Bias-Variance Tradeoff». scott.fortmann-roe.com. Consultado el 26 de junio de 2024. 
  19. Domingos, Pedro (2000). «A unified bias-variance decomposition». ICML. 
  20. Valentini, Giorgio; Dietterich, Thomas G (2004). «"Bias–variance analysis of support vector machines for the development of SVM-based ensemble methods"». Journal of Machine Learning Research. 
  21. Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008). «"Vector Space Classification"». Introduction to Information Retrieval, Cambridge University Press. 
  22. Brain, Damian; Webb, Geoffrey (2002). «The Need for Low Bias Algorithms in Classification Learning From Large Data Sets». Proceedings of the Sixth European Conference on Principles of Data Mining and Knowledge Discovery. 
  23. Francois-Lavet, Vincent; Rabusseau, Guillaume; Pineau, Joelle; Ernst, Damien; Fonteneau, Raphael (5 de mayo de 2019). «On Overfitting and Asymptotic Bias in Batch Reinforcement Learning with Partial Observability». Journal of Artificial Intelligence Research (en inglés) 65: 1-30. ISSN 1076-9757. doi:10.1613/jair.1.11478. Consultado el 26 de junio de 2024. 
  24. Gigerenzer, Gerd; Brighton, Henry (2009). «Homo Heuristicus: Why Biased Minds Make Better Inferences".». Topics in Cognitive Science. doi:10.1111/j.1756-8765.2008.01006.x. 

Bibliografía[editar]

  • Harry L. Van Trees; Kristine L. Bell, "Exploring Estimator BiasVariance Tradeoffs Using the Uniform CR Bound," in Bayesian Bounds for Parameter Estimation and Nonlinear Filtering/Tracking, IEEE, 2007, pp. 451–466, doi: 10.1109/9780470544198.ch40.

Enlaces externos[editar]