Ir al contenido

Aprendizaje semisupervisado

De Wikipedia, la enciclopedia libre
Ejemplo de datos en aprendizaje semi-supervisado.Panel superior: límite de decisión basado en solo dos ejemplos etiquetados (círculos blancos vs. negros). Panel inferior: límite de decisión basado en dos ejemplos etiquetados más datos no etiquetados (círculos grises).

En ciencias de la computación, el aprendizaje semisupervisado (SSL) es una clase de técnicas de aprendizaje automático que utiliza datos de entrenamiento tanto etiquetados como no etiquetados: normalmente una pequeña cantidad de datos etiquetados junto a una gran cantidad de datos no etiquetados. El aprendizaje semisupervisado se encuentra entre el aprendizaje no supervisado (sin datos de entrenamiento etiquetados) y el aprendizaje supervisado (con todos los datos de entrenamiento etiquetados). Los investigadores del campo del aprendizaje automático han descubierto que los datos no etiquetados, cuando se utilizan junto a una pequeña cantidad de datos etiquetados, pueden mejorar de forma considerable la exactitud del aprendizaje. La adquisición de datos etiquetados para resolver un problema suele requerir un agente humano capacitado para clasificar de forma manual los ejemplos de entrenamiento. El coste asociado al proceso de etiquetado puede hacer que un conjunto de entrenamiento totalmente etiquetado sea inviable, mientras que la adquisición de datos sin etiquetar es relativamente poco costoso. En estos casos, el aprendizaje semisupervisado puede ser muy útil.

Asunciones[editar]

Representación gráfica de las asunciones del aprendizaje semisupervisado.

Las técnicas de aprendizaje semisupervisado están basadas en diferentes asunciones que ayudan a guiar el proceso de aprendizaje. Según la literatura se centran en las siguientes cuatro[1][2]​:

  • Asunción de suavidad: dos instancias que están cerca una de la otra en el espacio de entrada tienen la misma etiqueta.
  • Asunción de baja densidad: el límite de decisión debe pasar a través de un espacio de baja densidad.
  • Asunción de la variedad: el espacio de entrada de alta dimensión está compuesto por múltiples subespacios de menor dimensionalidad. Las instancias del mismo subespacio deben tener la misma etiqueta.
  • Asunción de clúster: las instancias que se encuentran en el mismo clúster deben tener la misma etiqueta.

Taxonomía[editar]

van Engelen[2]​ presentó una taxonomía que actualmente es la más utilizada, y la que mejor representa el conjunto de modelos SSL. Esta taxonomía se divide en:

Transductivos[editar]

El grupo inicial de métodos SSL comprende los métodos transductivos. Los algoritmos transductivos generalmente no desarrollan ningún modelo en la fase de entrenamiento y el objetivo es etiquetar el conjunto de instancias no etiquetadas que ya están disponibles. Por lo tanto, el enfoque transductivo no se utiliza con instancias nuevas y desconocidas, por ejemplo, en un sistema de diagnóstico en línea que realiza detección y diagnóstico a medida que se recopilan nuevos datos. Este tipo de métodos siempre se basan en grafos. Los métodos suelen estar compuestos por tres fases: creación del grafo, ponderación del grafo e inferencia (propagación de etiquetas).[3]

Inductivos[editar]

Los algoritmos inductivos generalmente desarrollan un modelo durante la fase de entrenamiento que puede ser utilizado posteriormente para etiquetar datos no vistos[4][5]​. El objetivo en este caso es utilizar las instancias no etiquetadas ya disponibles durante la etapa de entrenamiento para mejorar el modelo que podría haberse obtenido si solo se hubieran utilizado instancias etiquetadas para el entrenamiento. Estos métodos se puede seguir dividiendo en:

Métodos wrapper[editar]

Los métodos wrapper primero entrenan un clasificador (algunos métodos wrapper entrenan más de un clasificador) utilizando solo las instancias etiquetadas para generar las predicciones de las instancias no etiquetadas. Luego, el clasificador se vuelve a entrenar (o los clasificadores se vuelven a entrenar) utilizando tanto las instancias etiquetadas originales como las nuevas instancias etiquetadas (también llamadas pseudo-etiquetadas) para mejorar el modelo, en un proceso que puede realizarse varias veces.

Preprocesamiento no supervisado[editar]

Los métodos de preprocesamiento no supervisados utilizan instancias no etiquetadas para diferentes propósitos, como extraer características de los datos no etiquetados, pre-agrupando los datos y para establecer los parámetros iniciales de un modelo de aprendizaje supervisado de manera no supervisada. Cabe destacar que este tipo de métodos realiza estas acciones antes del entrenamiento del modelo final.

Intrínsecamente semisupervisados[editar]

Los modelos intrínsecamente semisupervisados son aquellos que incorporan directamente instancias no etiquetadas en la función objetivo o de optimización del método de aprendizaje. En lugar de tratar las instancias no etiquetadas como datos adicionales separados, estos métodos integran estas instancias en el proceso de aprendizaje para mejorar el rendimiento del modelo.

Véase también[editar]

Referencias[editar]

  1. Abney, S., Semisupervised Learning for Computational Linguistics. Chapman & Hall/CRC, 2008.
  2. Blum, A., Mitchell, T. Combining labeled and unlabeled data with co-training. COLT: Proceedings of the Workshop on Computational Learning Theory, Morgan Kaufmann, 1998, p. 92-100.
  3. Chapelle, O., B. Schölkopf and A. Zien: Semi-Supervised Learning. MIT Press, Cambridge, MA (2006). Further information.
  4. Huang T-M., Kecman V., Kopriva I. [1], "Kernel Based Algorithms for Mining Huge Data Sets, Supervised, Semisupervised and Unsupervised Learning", Springer-Verlag, Berlin, Heidelberg, 260 pp. 96 illus., Hardcover, ISBN 3-540-31681-7, 2006.
  5. O'Neill, T. J. (1978) Normal discrimination with unclassified observations. Journal of the American Statistical Association, 73, 821–826.
  6. Theodoridis S., Koutroumbas K. (2009) "Pattern Recognition" , 4th Edition, Academic Press, ISBN 978-1-59749-272-0.
  7. Zhu, X. Semi-supervised learning literature survey.
  8. Zhu, X., Goldberg, A. Introduction to Semi-Supervised Learning Archivado el 6 de mayo de 2015 en Wayback Machine.. Morgan & Claypool Publishers, 2009.
  1. Chapelle, Olivier, ed. (22 de septiembre de 2006). Semi-Supervised Learning (en inglés). The MIT Press. ISBN 978-0-262-25589-9. doi:10.7551/mitpress/9780262033589.001.0001. Consultado el 6 de junio de 2024. 
  2. a b van Engelen, Jesper E.; Hoos, Holger H. (2020-02). «A survey on semi-supervised learning». Machine Learning (en inglés) 109 (2): 373-440. ISSN 0885-6125. doi:10.1007/s10994-019-05855-6. Consultado el 6 de junio de 2024. 
  3. «Semi-supervised learning with graphs - ProQuest». www.proquest.com. Consultado el 6 de junio de 2024. 
  4. Ramírez-Sanz, José Miguel; Maestro-Prieto, Jose-Alberto; Arnaiz-González, Álvar; Bustillo, Andrés (2023-12). «Semi-supervised learning for industrial fault detection and diagnosis: A systemic review». ISA Transactions 143: 255-270. ISSN 0019-0578. doi:10.1016/j.isatra.2023.09.027. Consultado el 6 de junio de 2024. 
  5. Garrido-Labrador, José Luis; Serrano-Mamolar, Ana; Maudes-Raedo, Jesús; Rodríguez, Juan J.; García-Osorio, César (2024-07). «Ensemble methods and semi-supervised learning for information fusion: A review and future research directions». Information Fusion 107: 102310. ISSN 1566-2535. doi:10.1016/j.inffus.2024.102310. Consultado el 6 de junio de 2024.