Fuga (aprendizaje automático)

En estadística y aprendizaje automático, la fuga (también conocida como fuga de datos o de objetivos) es el uso de información en el proceso de formación del modelo que no se esperaría que estuviera disponible en el momento de la predicción, lo que hace que las puntuaciones predictivas (métricas) sobreestimen la utilidad del modelo cuando se ejecuta en un entorno de producción.^[1]

Las fugas suelen ser sutiles e indirectas, lo que dificulta su detección y eliminación. Pueden hacer que un estadístico o modelador seleccione un modelo subóptimo, que podría ser superado por un modelo sin fugas.^[1]

por

Modos de fuga[editar]

La fuga puede ocurrir en muchos pasos en el proceso de aprendizaje automático. Las causas de la fuga se pueden subclasificar en dos fuentes posibles de fuga para un modelo: atributos y ejemplos de formación.^[1]

Fuga de atributos[editar]

La fuga de atributos o por columnas se debe a la inclusión de columnas que son una etiqueta duplicada, un delegado para la etiqueta o la etiqueta misma. Estos atributos, conocidos como anacronismos, no estarán disponibles cuando el modelo se use para predicciones y darán lugar a fugas si se incluyen cuando se forma el modelo.^[2]

Por ejemplo, incluir una columna «SalarioMensual» al predecir «SalarioAnual»; o «MinutosTarde» al predecir «EsTarde»; o más sutilmente «NumDePagos» al predecir «DebeAprobarCredito».

Fuga de ejemplo de formación[editar]

La fuga por filas es causada por el intercambio inadecuado de información entre filas de datos. Los tipos de fugas por fila incluyen:

Caracterización prematura; fugas por caracterización prematura antes de la división de segmento de CV /formación/prueba (debe ajustarse a MinMax/ngrams/etc solo en la división del tren y luego transformar el conjunto de prueba)
Filas duplicadas entre formación/validación/prueba (por ejemplo, sobremuestreo de un conjunto de datos para rellenar el tamaño antes de dividirlo; por ejemplo, diferentes rotaciones/aumentos de una sola imagen; muestreo de arranque antes de dividir; o duplicación de filas para aumentar la muestra de la clase minoritaria)
Datos no iid
- Pérdida de tiempo (p. ej., segmentar aleatoriamente un conjunto de datos de series temporales en lugar de datos más nuevos en un conjunto de prueba mediante una validación cruzada de segmento de formación dividida o de origen móvil)
- Fuga de grupo, sin incluir una columna segmentada de agrupación (p. ej. El grupo de Andrew Ng tenía 100 000 radiografías de 30 000 pacientes, lo que significa ~3 imágenes por paciente. El documento utilizó una segmentación aleatoria en lugar de garantizar que todas las imágenes de un paciente estuvieran en el mismo segmento. Por lo tanto, el modelo memorizó parcialmente a los pacientes en lugar de aprender a reconocer la neumonía en las radiografías de tórax.^[3]^[4] )

En los conjuntos de datos dependientes del tiempo, la estructura del sistema estudiado evoluciona con el tiempo (es decir, es «no estacionaria»). Esto puede introducir diferencias sistemáticas entre los conjuntos de formación y validación. Por ejemplo, si un modelo de predicción del valor de las acciones se forma a partir de los datos de un determinado periodo de cinco años, no es realista considerar el periodo de cinco años siguiente como una extracción de la misma población. Otro ejemplo: supongamos que se desarrolla un modelo para predecir el riesgo de que a un individuo se le diagnostique una enfermedad determinada en el próximo año.

Véase también[editar]

Referencias[editar]

↑ ^a ^b ^c Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). «Leakage in Data Mining: Formulation, Detection, and Avoidance». Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 6: 556-563. doi:10.1145/2020408.2020496. Consultado el 13 de enero de 2020.
↑ Soumen Chakrabarti (2008). «9». Data Mining: Know it All. Morgan Kaufmann Publishers. p. 383. ISBN 978-0-12-374629-0. «Anachronistic variables are a pernicious mining problem. However, they aren't any problem at all at deployment time—unless someone expects the model to work! Anachronistic variables are out of place in time. Specifically, at data modeling time, they carry information back from the future to the past.»
↑ . AI Ukraine Conference (Talk|formato= requiere |url= (ayuda)). 30 de octubre de 2018.
↑ Nick, Roberts (16 de noviembre de 2017). «Replying to @AndrewYNg @pranavrajpurkar and 2 others». Brooklyn, NY, USA: Twitter. Archivado desde el original el 10 June 2018live. Consultado el 13 de enero de 2020. «Replying to @AndrewYNg @pranavrajpurkar and 2 others ... Were you concerned that the network could memorize patient anatomy since patients cross train and validation? "ChestX-ray14 dataset contains 112,120 frontal-view X-ray images of 30,805 unique patients. We randomly split the entire dataset into 80% training, and 20% validation."».

[KaufmanKDD11-1] Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). «Leakage in Data Mining: Formulation, Detection, and Avoidance». Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 6: 556-563. doi:10.1145/2020408.2020496. Consultado el 13 de enero de 2020.

[2] Soumen Chakrabarti (2008). «9». Data Mining: Know it All. Morgan Kaufmann Publishers. p. 383. ISBN 978-0-12-374629-0. «Anachronistic variables are a pernicious mining problem. However, they aren't any problem at all at deployment time—unless someone expects the model to work! Anachronistic variables are out of place in time. Specifically, at data modeling time, they carry information back from the future to the past.»

[GutsAIUkraineConfTalk18-3] . AI Ukraine Conference (Talk|formato= requiere |url= (ayuda)). 30 de octubre de 2018.

[4] Nick, Roberts (16 de noviembre de 2017). «Replying to @AndrewYNg @pranavrajpurkar and 2 others». Brooklyn, NY, USA: Twitter. Archivado desde el original el 10 June 2018live. Consultado el 13 de enero de 2020. «Replying to @AndrewYNg @pranavrajpurkar and 2 others ... Were you concerned that the network could memorize patient anatomy since patients cross train and validation? "ChestX-ray14 dataset contains 112,120 frontal-view X-ray images of 30,805 unique patients. We randomly split the entire dataset into 80% training, and 20% validation."».

[1]

[2]

[3]

[4]