Aprendizaje semisupervisado

De Wikipedia, la enciclopedia libre
(Redirigido desde «Aprendizaje semi-supervisado»)
Ejemplo de datos en aprendizaje semi-supervisado.Panel superior: límite de decisión basado en solo dos ejemplos etiquetados (círculos blancos vs. negros). Panel inferior: límite de decisión basado en dos ejemplos etiquetados más datos no etiquetados (círculos grises).

En ciencias de la computación, el aprendizaje semi-supervisado es una clase de técnicas de aprendizaje automático que utiliza datos de entrenamiento tanto etiquetados como no etiquetados: normalmente una pequeña cantidad de datos etiquetados junto a una gran cantidad de datos no etiquetados. El aprendizaje semi-supervisado se encuentra entre el aprendizaje no supervisado (sin datos de entrenamiento etiquetados) y el aprendizaje supervisado (con todos los datos de entrenamiento etiquetados). Los investigadores del campo del aprendizaje automático han descubierto que los datos no etiquetados, cuando se utilizan junto a una pequeña cantidad de datos etiquetados, pueden mejorar de forma considerable la exactitud del aprendizaje. La adquisición de datos etiquetados para resolver un problema suele requerir un agente humano capacitado para clasificar de forma manual los ejemplos de entrenamiento. El coste asociado al proceso de etiquetado puede hacer que un conjunto de entrenamiento totalmente etiquetado sea inviable, mientras que la adquisición de datos sin etiquetar es relativamente poco costoso. En estos casos, el aprendizaje semi-supervisado puede ser muy útil.

Un ejemplo de técnica que utiliza aprendizaje semi-supervisado es el co-entrenamiento, donde se entrenan dos o más sistemas cada uno en un conjunto de ejemplos, pero de forma que cada sistema utiliza un conjunto de características diferentes (e idealmente independientes) para cada ejemplo.

Un enfoque alternativo consiste en modelar la distribución de la probabilidad conjunta de las características y las etiquetas. Los datos no etiquetados pueden ser tratados como 'datos que faltan'. Se utiliza de forma común en el algoritmo EM para maximizar la similitud del modelo.


Véase también[editar]


Referencias[editar]

  1. Abney, S., Semisupervised Learning for Computational Linguistics. Chapman & Hall/CRC, 2008.
  2. Blum, A., Mitchell, T. Combining labeled and unlabeled data with co-training. COLT: Proceedings of the Workshop on Computational Learning Theory, Morgan Kaufmann, 1998, p. 92-100.
  3. Chapelle, O., B. Schölkopf and A. Zien: Semi-Supervised Learning. MIT Press, Cambridge, MA (2006). Further information.
  4. Huang T-M., Kecman V., Kopriva I. [1], "Kernel Based Algorithms for Mining Huge Data Sets, Supervised, Semisupervised and Unsupervised Learning", Springer-Verlag, Berlin, Heidelberg, 260 pp. 96 illus., Hardcover, ISBN 3-540-31681-7, 2006.
  5. O'Neill, T. J. (1978) Normal discrimination with unclassified observations. Journal of the American Statistical Association, 73, 821–826.
  6. Theodoridis S., Koutroumbas K. (2009) "Pattern Recognition" , 4th Edition, Academic Press, ISBN 978-1-59749-272-0.
  7. Zhu, X. Semi-supervised learning literature survey.
  8. Zhu, X., Goldberg, A. Introduction to Semi-Supervised Learning Archivado el 6 de mayo de 2015 en Wayback Machine.. Morgan & Claypool Publishers, 2009.