Agregación de bootstrap

De Wikipedia, la enciclopedia libre
Ir a la navegación Ir a la búsqueda

La agregación de bootstrap, también conocida como empaquetado, es un metaalgoritmo de aprendizaje automático diseñado para mejorar la estabilidad y precisión de algoritmos de aprendizaje automático usados en clasificación estadística y regresión. Además reduce la varianza y ayuda a evitar el sobreajuste. Aunque es usualmente aplicado a métodos de árboles de decisión, puede ser usado con cualquier tipo de método. El empaquetado es un caso especial del promediado de modelos.

Descripción de la técnica[editar]

Dado un conjunto de entrenamiento estándar D de tamaño n, el empaquetado genera m nuevos conjuntos de entrenamiento , cada uno de tamaño n′, mediante muestreo uniforme y con reemplazo de D. En el caso del muestreo con reemplazo, algunas observaciones deben repetirse en . Si n=n, entonces para un n grande el conjunto se espera que tenga (1 - 1/e) (≈63.2%) ejemplos únicos de D, siendo el resto duplicados.[1]​ Este tipo de muestra es conocido como muestra bootstrap. Los m modelos son aproximados usando las m muestras bootstrap y combinados promediando el resultado (para regresión) o votando (para clasificación).

El empaquetado lleva a "mejoras para procedimientos inestables" (Breiman, 1996), que incluyen, por ejemplo, redes neuronales artificiales, árboles de clasificación y regresión, y selección de subconjuntos en regresión lineal (Breiman, 1994). Una aplicación interesante del empaquetado mostrando mejorías en el aprendizaje preimagen puede ser visto aquí.[2][3]​ Por otra parte, esto puede degradar levemente el rendimiento de métodos estables tales como K-nearest neighbors (Breiman, 1996).

Ejemplo: Datos de Ozono[editar]

Para ilustrar los principios básicos del empaquetado, se muestra a continuación un análisis de la relación entre el ozono y la temperatura (datos de Peter Rousseeuw y Leroy (1986), disponibles en conjuntos de datos clásicos, el análisis está hecho en R).

La relación entre la temperatura y el ozono en este conjunto de datos es aparentemente no lineal, basado en el gráfico de dispersión. Para describir matemáticamente esta relación, se usan suavizadores LOESS. En vez de construir un único suavizador a partir del conjunto de datos completo, 100 muestras bootstrap de los datos fueron graficadas. Cada muestra es diferente del conjunto de datos original, y aun así se asemeja en distribución y variabilidad. Por cada muestra bootstrap, un suavizador LOESS fue ajustado. A través del rango de los datos, se hicieron predicciones a partir de estos 100 suavizadores . Los primeros 10 ajustes suaves aparecen en líneas grises en la figura. Las líneas claramente sobreajustan los datos.

Pero tomando un promedio de 100 suavizadores, cada uno ajustado a un subconjunto del conjnto original, llegamos a un pronosticador empaquetado (línea roja). Claramente, la media es más estable y hay menos sobreajuste.

Empaquetado para clasificadores de vecinos cercanos[editar]

Se conoce bien que el riesgo de un clasificador 1 nearest neighbor (1NN) es a lo sumo el doble del riesgo del clasificador Bayes, pero no hay garantías de que este clasficador será consistente. Escogiendo cuidadosamente el tamaño de las nuevas muestras, el empaquetado puede llevar a mejoras substanciales en el rendimiento del clasificador 1NN. Tomando una gran número de muestras de los datos de tamaño , el clasificador empaquetado nearest neighbors será consistente dado que diverge pero cuando el tamaño de la muestra .

Bajo simulación infinita, el clasificador nearest neighbors empaquetado se puede ver como un clasificador nearest neighbors con pesos. Suponga que el espacio de estudio es dimensional y sea el clasificador nearest neighbors empaquetado basado en un conjunto de entrenamiento de tamaño , con muestras de tamaño . En el caso del muestreo infinito, bajo ciertas condiciones de regularidad en las distribuciones de clases, el riesgo excedente tiene la extensión asintótica siguiente[4]

para algunas constantes

y . La selección óptima de , que balancea los dos términos en la extensión asintótica, está dada por para alguna constante .

Historia[editar]

El empaquetado fue propuesto por Leo Breiman en 1994 para mejorar la clasificación combinando clasificaciones de conjuntos de entrenamientos generados aleatoriamente. Ver Breiman, 1994. Reporte Técnico No. 421.

Véase también[editar]

Referencias[editar]

  1. Aslam, Javed A.; Popa, Raluca A.; and Rivest, Ronald L. (2007); [http://people.csail.mit.edu/rivest/pubs/APR07.pdf On Estimating the Size and Confidence of a Statistical Audit], Proceedings of the Electronic Voting Technology Workshop (EVT '07), Boston, MA, August 6, 2007. Generalizando, cuando graficamos con reemplazo n′ valores fuera del conjunto de n (diferentes e igualmente probables), el número esperado de gráficos ñunicos es .
  2. Sahu, A., Runger, G., Apley, D., Image denoising with a multi-phase kernel principal component approach and an ensemble version, IEEE Applied Imagery Pattern Recognition Workshop, pp.1-7, 2011.
  3. Shinde, Amit, Anshuman Sahu, Daniel Apley, and George Runger. "Preimages for Variation Patterns from Kernel PCA and Bagging." IIE Transactions, Vol.46, Iss.5, 2014
  4. Samworth R. J. (2012). Optimal weighted nearest neighbour classifiers 40 (5). Annals of Statistics. pp. 2733-2763. doi:10.1214/12-AOS1049. 

Bibliografía[editar]