Máquina de aprendizaje extremo

De Wikipedia, la enciclopedia libre

Las máquinas de aprendizaje extremo son redes neuronales prealimentadas o feedforward para clasificación, regresión, agrupación, aproximación dispersa, compresión y aprendizaje de características con una sola capa o varias capas de nodos ocultos, en las que es necesario ajustar los parámetros de los nodos ocultos (no sólo los pesos que conectan las entradas con los nodos ocultos). Estos nodos ocultos pueden asignarse aleatoriamente y no actualizarse nunca (es decir, son proyecciones aleatorias pero con transformaciones no lineales), o pueden heredarse de sus antecesores sin modificarse. En la mayoría de los casos, los pesos de salida de los nodos ocultos suelen aprenderse en un solo paso, lo que equivale esencialmente a aprender un modelo lineal.

Guang-Bin Huang dio el nombre de "máquina de aprendizaje extremo" (ELM, por sus siglas en inglés) a este tipo de modelos y propuso originalmente redes con cualquier tipo de nodos ocultos no lineales y continuos a trozos, incluidas neuronas biológicas y distintos tipos de funciones matemáticas básicas.[1][2]​ La idea de las redes neuronales artificiales se remonta a Frank Rosenblatt, que no sólo publicó un perceptrón de una sola capa en 1958,[3]​ sino que también introdujo un perceptrón multicapa con 3 capas: una capa de entrada, una capa oculta con pesos aleatorios que no aprendían y una capa de salida que aprendía.[4][5]

Según algunos investigadores, estos modelos son capaces de producir un buen rendimiento de generalización y aprender miles de veces más rápido que las redes entrenadas mediante retropropagación.[6]​ En la literatura, también se muestra que estos modelos pueden superar a las máquinas de vectores de soporte tanto en aplicaciones de clasificación como de regresión.[1][7][8]

Historia[editar]

Entre 2001 y 2010, la investigación sobre ELM se centró principalmente en el marco de aprendizaje unificado para redes neuronales de una capa oculta (SLFN) "generalizadas", incluyendo, entre otras, redes sigmoidales, redes RBF, redes umbral,[9]​ redes trigonométricas, sistemas de inferencia difusa, series de Fourier,[10][11]​ transformada laplaciana, redes wavelet, etc.[12]​ Un logro significativo conseguido en esos años es demostrar con éxito las capacidades universales de aproximación y clasificación de ELM en teoría.[10][13][14]

De 2010 a 2015, la investigación sobre ELM se extendió al marco de aprendizaje unificado para el aprendizaje de kernel, SVM y algunos métodos típicos de aprendizaje de características, como el análisis de componentes principales (PCA) y la factorización no negativa de matrices (NMF). Se demuestra que SVM proporciona en realidad soluciones subóptimas en comparación con ELM, y ELM puede proporcionar el mapeo de kernel de caja blanca, que se implementa mediante el mapeo de características aleatorias de ELM, en lugar del kernel de caja negra utilizado en SVM. PCA y NMF pueden considerarse como casos especiales en los que se utilizan nodos ocultos lineales en ELM.[15][16]

De 2015 a 2017, se ha prestado una mayor atención a las implementaciones jerárquicas[17][18]​ de ELM. Además, desde 2011, se han realizado importantes estudios biológicos que apoyan ciertas teorías de ELM.[19][20][21]

A partir de 2017, para superar el problema de baja convergencia durante la descomposición LU de entrenamiento, los enfoques basados en la descomposición de Hessenberg y la descomposición QR con regularización han comenzado a atraer la atención.[22][23][24]

En 2017, Google Scholar Blog publicó una lista de "Classic Papers: Artículos que han resistido el paso del tiempo".[25]​ Entre ellos se encuentran dos artículos escritos sobre ELM que se muestran en los estudios 2 y 7 de la "Lista de 10 artículos clásicos sobre IA de 2006".[26][27][28]

Algoritmos[editar]

Dada una única capa oculta del ELM, supongamos que la función de salida del del nodo oculto es , donde y son los parámetros del nodo oculto i-ésimo. La función de salida del ELM para redes feedforward de capa oculta única (SLFN) con nodos ocultos es:

, donde es el peso de salida del nodo oculto .

es el mapeo de salida de la capa oculta del ELM. Dado muestras de entrenamiento, la matriz de salida de la capa oculta de ELM se da como:

y es la matriz objetivo de los datos de entrenamiento:

En términos generales, ELM es un tipo de redes neuronales de regularización pero con mapeos de capa oculta no sintonizados (formados por nodos ocultos aleatorios, kernels u otras implementaciones), su función objetivo es:

donde .

Diferentes combinaciones de , , y pueden utilizarse y dar lugar a diferentes algoritmos de aprendizaje para la regresión, la clasificación, la codificación dispersa, la compresión, el aprendizaje de características y la agrupación.

Como caso especial, un algoritmo de entrenamiento ELM más simple aprende un modelo de la forma (para redes neuronales sigmoidales de una sola capa oculta):

donde W1 es la matriz de pesos de entrada a capa oculta, es una función de activación, y W2 es la matriz de pesos de la capa oculta a la capa de salida. El algoritmo procede como sigue:

  1. Llenar W1 con valores aleatorios (por ejemplo, ruido aleatorio gaussiano);
  2. Estimar W2 por ajuste de mínimos cuadrados a una matriz de variables de respuesta Y, calculada mediante la pseudoinversa +, dada una matriz de diseño X :

Arquitecturas[editar]

En la mayoría de los casos, el ELM se utiliza como una red feedforward de una sola capa oculta (SLFN) que incluye, entre otras, redes sigmoidales, redes RBF, redes umbral, redes de inferencia difusa, redes neuronales complejas, redes wavelet, transformada de Fourier, transformada laplaciana, etc. Debido a sus diferentes implementaciones de algoritmos de aprendizaje para regresión, clasificación, codificación dispersa, compresión, aprendizaje de características y agrupación, los ELM múltiples se han utilizado para formar redes de varias capas ocultas, aprendizaje profundo o redes jerárquicas.[17][18][29]

Un nodo oculto en ELM es un elemento computacional, que no necesita ser considerado como una neurona clásica. Un nodo oculto en ELM puede ser neuronas artificiales clásicas, funciones base o una subred formada por algunos nodos ocultos.[13]

Teorías[editar]

En la literatura se han demostrado tanto la capacidad de aproximación universal como la de clasificación[1][7]​para ELM. En particular, Guang-Bin Huang y su equipo dedicaron casi siete años (2001-2008) a demostrar rigurosamente la capacidad de aproximación universal del ELM.[10][13][14]

Capacidad de aproximación universal[editar]

En teoría, cualquier función continua a trozos no constante puede utilizarse como función de activación en los nodos ocultos del ELM, no es necesario que dicha función de activación sea diferencial. Si el ajuste de los parámetros de los nodos ocultos puede hacer que los SLFN se aproximen a cualquier función objetivo , entonces los parámetros del nodo oculto pueden generarse aleatoriamente según cualquier probabilidad de distribución continua, y se cumple con probabilidad uno con las ponderaciones de salida adecuadas .

Capacidad de clasificación[editar]

Dada cualquier función continua a trozos no constante como función de activación en los SLFN, si el ajuste de los parámetros de los nodos ocultos puede hacer que los SLFN se aproximen a cualquier función objetivo , entonces SLFNs con mapeo aleatorio de la capa oculta puede separar regiones disjuntas arbitrarias de cualquier forma.

Neuronas[editar]

Una amplia gama de funciones no lineales continuas a trozos puede utilizarse en neuronas ocultas de ELM, por ejemplo:

Dominio real[editar]

Función sigmoidea:

Función de Fourier:

Función Hardlimit:

Función gaussiana:

Función multicuadrícula:

Ondícula: donde es una única función wavelet madre.

Dominio complejo[editar]

Funciones circulares:

Funciones circulares inversas:

Funciones hiperbólicas:

Funciones hiperbólicas inversas:

Fiabilidad[editar]

El carácter de caja negra de las redes neuronales en general y de las máquinas de aprendizaje extremo (ELM) en particular es una de las principales preocupaciones que repele a los ingenieros a la hora de aplicarlas en tareas de automatización poco seguras. Este problema concreto se ha abordado mediante varias técnicas diferentes. Un enfoque consiste en reducir la dependencia de la entrada aleatoria.[30][31]​ Otro enfoque se centra en la incorporación de restricciones continuas en el proceso de aprendizaje de las ELM.[32][33]​ que se derivan del conocimiento previo sobre la tarea específica. Esto es razonable, porque las soluciones de aprendizaje automático tienen que garantizar un funcionamiento seguro en muchos dominios de aplicación. Los estudios mencionados revelaron que la forma especial de los ELMs, con su separación funcional y los pesos lineales de lectura, es particularmente adecuada para la incorporación eficiente de restricciones continuas en regiones predefinidas del espacio de entrada.

Polémica[editar]

Hay dos quejas principales de la comunidad académica con respecto a este trabajo, la primera es sobre "reinventar e ignorar ideas anteriores", la segunda es sobre "nombrar y popularizar incorrectamente", como se muestra en algunos debates en 2008 y 2015.[34]​ En particular, se señaló en una carta[35]​ al editor de IEEE Transactions on Neural Networks que la idea de utilizar una capa oculta conectada a las entradas mediante pesos aleatorios no entrenados ya se había sugerido en los artículos originales sobre redes RNA a finales de la década de 1980; Guang-Bin Huang respondió señalando sutiles diferencias.[36]​ En un artículo de 2015,[1]​ Huang respondió a las quejas sobre su invención del nombre ELM para métodos ya existentes, quejándose de "comentarios muy negativos y poco útiles sobre ELM de manera ni académica ni profesional debido a diversas razones e intenciones" y un "ataque anónimo irresponsable que pretende destruir el ambiente de investigación de la armonía", argumentando que su trabajo "proporciona una plataforma de aprendizaje unificadora" para varios tipos de redes neuronales,[1]​ incluyendo ELM estructurado jerárquico.[29]​ En 2015, Huang también dio una refutación formal a lo que consideró como "maligno y ataque"[37]​ Investigaciones recientes sustituyen los pesos aleatorios por pesos aleatorios restringidos.[7][38]

Fuentes abiertas[editar]

Véase también[editar]

Referencias[editar]

  1. a b c d e Huang, Guang-Bin (2015). «"What are Extreme Learning Machines? Filling the Gap Between Frank Rosenblatt's Dream and John von Neumann's Puzzle"». web.archive.org. doi:10.1007/s12559-015-9333-0. Consultado el 3 de abril de 2024. 
  2. Huang, Guang-Bin (2014). «An Insight into Extreme Learning Machines: Random Neurons, Random Features and Kernels». Cognitive Computation. doi:10.1007/s12559-014-9255-2. 
  3. Rosenblatt, Frank (1958). «The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain». Psychological Review. PMID 13602029. doi:10.1037/h0042519. 
  4. Rosenblatt, Frank (1962). «Principles of Neurodynamics». Spartan, New York. 
  5. Schmidhuber, Juergen. Annotated History of Modern AI and Deep Learning. 
  6. Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). «"Extreme learning machine: theory and applications"». Neurocomputing. doi:10.1016/j.neucom.2005.12.126. 
  7. a b c Huang, Guang-Bin; Hongming Zhou; Xiaojian Ding; and Rui Zhang (2012). «"Extreme Learning Machine for Regression and Multiclass Classification». IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics. PMID 21984515. doi:10.1109/tsmcb.2011.2168604. 
  8. Huang, Guang-Bin (2014). «"An Insight into Extreme Learning Machines: Random Neurons, Random Features and Kernels». Cognitive Computation. doi:10.1007/s12559-014-9255-2. 
  9. Huang, Guang-Bin, Qin-Yu Zhu, K. Z. Mao, Chee-Kheong Siew, P. Saratchandran, and N. Sundararajan (2006). «"Can Threshold Networks Be Trained Directly?». IEEE Transactions on Circuits and Systems-II: Express Briefs. doi:10.1109/tcsii.2005.857540. 
  10. a b c Huang, Guang-Bin, Lei Chen, and Chee-Kheong Siew (2006). «"Universal Approximation Using Incremental Constructive Feedforward Networks with Random Hidden Nodes». IEEE Transactions on Neural Networks. PMID 16856652. doi:10.1109/tnn.2006.875977. 
  11. Rahimi, Ali, and Benjamin Recht (2008). «"Weighted Sums of Random Kitchen Sinks: Replacing Minimization with Randomization in Learning». Advances in Neural Information Processing Systems. 
  12. Cao, Jiuwen, Zhiping Lin, Guang-Bin Huang (2010). «"Composite Function Wavelet Neural Networks with Extreme Learning Machine".». Neurocomputing. doi:10.1016/j.neucom.2009.12.007. 
  13. a b c Huang, Guang-Bin, Lei Chen (2007). «"Convex Incremental Extreme Learning Machine"». Neurocomputing. doi:10.1016/j.neucom.2007.02.009. 
  14. a b Huang, Guang-Bin, and Lei Chen (2008). «"Enhanced Random Search Based Incremental Extreme Learning Machine». Neurocomputing. doi:10.1016/j.neucom.2007.10.008. 
  15. He, Qing, Xin Jin, Changying Du, Fuzhen Zhuang, Zhongzhi Shi (2014). «Clustering in Extreme Learning Machine Feature Space». Neurocomputing. doi:10.1016/j.neucom.2012.12.063. 
  16. Kasun, Liyanaarachchi Lekamalage Chamara, Yan Yang, Guang-Bin Huang, and Zhengyou Zhang (2016). «"Dimension Reduction With Extreme Learning Machine"». IEEE Transactions on Image Processing. PMID 27214902. doi:10.1109/tip.2016.2570569. 
  17. a b Huang, Guang-Bin, Zuo Bai, and Liyanaarachchi Lekamalage Chamara Kasun, and Chi Man Vong (2015). «Local Receptive Fields Based Extreme Learning Machine». IEEE Computational Intelligence Magazine. doi:10.1109/mci.2015.2405316. 
  18. a b Tang, Jiexiong, Chenwei Deng, and Guang-Bin Huang (2016). «Extreme Learning Machine for Multilayer Perceptron». IEEE Transactions on Neural Networks and Learning Systems. PMID 25966483. doi:10.1109/tnnls.2015.2424995. 
  19. Barak, Omri; Rigotti, Mattia; and Fusi, Stefano (2013). «"The Sparseness of Mixed Selectivity Neurons Controls the Generalization-Discrimination Trade-off"». Journal of Neuroscience. PMID 23447596. doi:10.1523/jneurosci.2753-12.2013. 
  20. Rigotti, Mattia; Barak, Omri; Warden, Melissa R.; Wang, Xiao-Jing; Daw, Nathaniel D.; Miller, Earl K.; and Fusi, Stefano (2013). «The Importance of Mixed Selectivity in Complex Cognitive Tasks». Nature. PMID 23685452. doi:10.1038/nature12160. 
  21. Fusi, Stefano, Earl K Miller and Mattia Rigotti (2015). «Why Neurons Mix: High Dimensionality for Higher Cognition». Current Opinion in Neurobiology. PMID 26851755. doi:10.1016/j.conb.2016.01.010. 
  22. Kutlu, Yakup Kutlu, Apdullah Yayık, and Esen Yıldırım, and Serdar Yıldırım (2017). «"LU triangularization extreme learning machine in EEG cognitive task classification"». Neural Computation and Applications. doi:10.1007/s00521-017-3142-1. 
  23. Apdullah Yayık; Yakup Kutlu; Gökhan Altan. "Regularized HessELM and Inclined Entropy Measurement forCongestive Heart Failure Prediction". 
  24. Altan, Gökhan Altan, Yakup Kutlu, Adnan Özhan Pekmezci and Apdullah Yayık (2018). «Diagnosis of Chronic Obstructive Pulmonary Disease using Deep Extreme Learning Machines with LU Autoencoder Kernel». International Conference on Advanced Technologies. 
  25. «Classic papers: articles that have stood the test of time - The University of Nottingham». www.nottingham.ac.uk (en inglés británico). Consultado el 3 de abril de 2024. 
  26. «Artificial Intelligence - Classic papers - Google Scholar». scholar.google.com. Consultado el 3 de abril de 2024. 
  27. Huang, G.B.; Zhu, Q.Y.; Siew, C.K. (2006). «Extreme learning machine: theory and applications». Nerocomputing. ISSN 0925-2312. doi:10.1016/j.neucom.2005.12.126. 
  28. Liang, N.Y.; Huang, G.B.; Saratchandran, P.; Sundararajan, N. (2006). «"A fast and accurate online sequential learning algorithm for feedforward networks». IEEE Transactions on Neural Networks. PMID 17131657. doi:10.1109/TNN.2006.880583. 
  29. a b Zhu, W.; Miao, J.; Qing, L.; Huang, G. B. (2015). «"Hierarchical Extreme Learning Machine for unsupervised representation learning"». 2015 International Joint Conference on Neural Networks (IJCNN). ISBN 978-1-4799-1960-4. doi:10.1109/IJCNN.2015.7280669. 
  30. Neumann, Klaus; Steil, Jochen J. (2011). «"Batch intrinsic plasticity for extreme learning machines"». Proc. Of International Conference on Artificial Neural Networks. 
  31. Neumann, Klaus; Steil, Jochen J. (2013). «"Optimizing extreme learning machines via ridge regression and batch intrinsic plasticity"». Neurocomputing. doi:10.1016/j.neucom.2012.01.041. 
  32. Neumann, Klaus; Rolf, Matthias; Steil, Jochen J. (2013). «"Reliable integration of continuous constraints into extreme learning machines"». International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems. ISSN 0218-4885. doi:10.1142/S021848851340014X. 
  33. Neumann, Klaus (2014). «Reliability». University Library Bielefeld. 
  34. «Extreme Learning Machine: Duplicates Others‘ Papers from 1988-2007». originofelm (en inglés). Consultado el 4 de abril de 2024. 
  35. Wang, Lipo P.; Wan, Chunru R. (2008). «"Comments on "The Extreme Learning Machine"». IEEE Trans. Neural Netw. PMID 18701376. doi:10.1109/TNN.2008.2002273. 
  36. Huang, Guang-Bin (2008). «"Reply to "comments on 'the extreme learning machine'». IEEE Transactions on Neural Networks. doi:10.1109/tnn.2008.2002275. 
  37. Guang-Bin, Huang (2015). «"WHO behind the malign and attack on ELM, GOAL of the attack and ESSENCE of ELM"». www.extreme-learning-machines.org. 
  38. Zhu, W.; Miao, J.; Qing, L. (2014). «"Constrained Extreme Learning Machine: A novel highly discriminative random feedforward neural network"». 2014 International Joint Conference on Neural Networks (IJCNN). ISBN 978-1-4799-1484-5. doi:10.1109/IJCNN.2014.6889761. 
  39. Akusok, Anton; Bjork, Kaj-Mikael; Miche, Yoan; Lendasse, Amaury (2015). «High-Performance Extreme Learning Machines: A Complete Toolbox for Big Data Applications». IEEE Access 3: 1011-1025. ISSN 2169-3536. doi:10.1109/ACCESS.2015.2450498. Consultado el 4 de abril de 2024.