Diferencia entre revisiones de «Red neuronal recurrente»

De Wikipedia, la enciclopedia libre
Contenido eliminado Contenido añadido
Joshelijim (discusión · contribs.)
m Link
Línea 25: Línea 25:
Redes neuronales [[Long short-term memory]] (LSTM) fueron inventadas por [[Sepp Hochreiter|Hochreiter]] y[[Jürgen Schmidhuber|Schmidhuber]] en 1997 y establecieron récords de eficiencia en distintos ámbitos de aplicación. <ref name="lstm">{{Cite journal |last1=Hochreiter |first1=Sepp |author-link=Sepp Hochreiter |last2=Schmidhuber |first2=Jürgen |date=1997-11-01 |title=Long Short-Term Memory |journal=Neural Computation |volume=9 |issue=8 |pages=1735–1780 |doi=10.1162/neco.1997.9.8.1735|pmid=9377276 |s2cid=1915014 }}</ref>
Redes neuronales [[Long short-term memory]] (LSTM) fueron inventadas por [[Sepp Hochreiter|Hochreiter]] y[[Jürgen Schmidhuber|Schmidhuber]] en 1997 y establecieron récords de eficiencia en distintos ámbitos de aplicación. <ref name="lstm">{{Cite journal |last1=Hochreiter |first1=Sepp |author-link=Sepp Hochreiter |last2=Schmidhuber |first2=Jürgen |date=1997-11-01 |title=Long Short-Term Memory |journal=Neural Computation |volume=9 |issue=8 |pages=1735–1780 |doi=10.1162/neco.1997.9.8.1735|pmid=9377276 |s2cid=1915014 }}</ref>


Alrededor de 2007, las LSTM empezaron a revolucionar el [[reconocimiento del habla]], superando ciertos modelos tradicionales en el campo. <ref name="fernandez2007keyword">{{Cite book |last1=Fernández |first1=Santiago |last2=Graves |first2=Alex |last3=Schmidhuber |first3=Jürgen |year=2007 |title=An Application of Recurrent Neural Networks to Discriminative Keyword Spotting |url=http://dl.acm.org/citation.cfm?id=1778066.1778092 |journal=Proceedings of the 17th International Conference on Artificial Neural Networks |series=ICANN'07 |location=Berlin, Heidelberg |publisher=Springer-Verlag |pages=220–229 |isbn=978-3-540-74693-5 }}</ref> En 2009, una red LSTM entrenada con [[Connectionist Temporal Classification (CTC)|Connectionist Temporal Classification]] (CTC) fue la primera RNN en ganar una competición de reconocimiento de patrones, ganando distintas competiciones en reconocimiento de lenguaje escrito <ref name="schmidhuber2015" /><ref name="graves20093">{{Cite document |last2=Schmidhuber |first2=Jürgen |year=2009 |editor-last=Bengio |editor-first=Yoshua |title=Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks |url=https://papers.nips.cc/paper/3449-offline-handwriting-recognition-with-multidimensional-recurrent-neural-networks |publisher=Neural Information Processing Systems (NIPS) Foundation |pages=545–552 |editor-last2=Schuurmans |editor-first2=Dale |editor-last3=Lafferty |editor-first3=John |editor-last4=Williams |editor-first4=Chris editor-K. I. |editor-last5=Culotta |editor-first5=Aron |last1=Graves |first1=Alex }}</ref> En 2014, la compañía china [[Baidu]] usó RNNs entrenadas con CTC para romper el dataset de reconocimiento del habla 2S09 Switchboard Hub5'00 <ref>[https://catalog.ldc.upenn.edu/LDC2002S09 Switchboard Hub5'00 speech recognition dataset]</ref> benchmark without using any traditional speech processing methods.<ref name="hannun2014">{{cite arxiv |last1=Hannun |first1=Awni |last2=Case |first2=Carl |last3=Casper |first3=Jared |last4=Catanzaro |first4=Bryan |last5=Diamos |first5=Greg |last6=Elsen |first6=Erich |last7=Prenger |first7=Ryan |last8=Satheesh |first8=Sanjeev |last9=Sengupta |first9=Shubho |date=2014-12-17 |title=Deep Speech: Scaling up end-to-end speech recognition |eprint=1412.5567 |class=cs.CL}}</ref>
Alrededor de 2007, las LSTM empezaron a revolucionar el [[reconocimiento del habla]], superando ciertos modelos tradicionales en el campo. <ref name="fernandez2007keyword">{{Cite book |last1=Fernández |first1=Santiago |last2=Graves |first2=Alex |last3=Schmidhuber |first3=Jürgen |year=2007 |title=An Application of Recurrent Neural Networks to Discriminative Keyword Spotting |url=http://dl.acm.org/citation.cfm?id=1778066.1778092 |journal=Proceedings of the 17th International Conference on Artificial Neural Networks |series=ICANN'07 |location=Berlin, Heidelberg |publisher=Springer-Verlag |pages=220–229 |isbn=978-3-540-74693-5 }}</ref> En 2009, una red LSTM entrenada con [[Connectionist Temporal Classification (CTC)|Connectionist Temporal Classification]] (CTC) fue la primera RNN en ganar una competición de reconocimiento de patrones, ganando distintas competiciones en reconocimiento de lenguaje escrito <ref name="schmidhuber2015" /><ref name="graves20093">{{Cite document |last2=Schmidhuber |first2=Jürgen |year=2009 |editor-last=Bengio |editor-first=Yoshua |title=Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks |url=https://papers.nips.cc/paper/3449-offline-handwriting-recognition-with-multidimensional-recurrent-neural-networks |publisher=Neural Information Processing Systems (NIPS) Foundation |pages=545–552 |editor-last2=Schuurmans |editor-first2=Dale |editor-last3=Lafferty |editor-first3=John |editor-last4=Williams |editor-first4=Chris editor-K. I. |editor-last5=Culotta |editor-first5=Aron |last1=Graves |first1=Alex }}</ref> En 2014, la compañía china [[Baidu]] usó RNNs entrenadas con CTC para romper el dataset de reconocimiento del habla 2S09 Switchboard Hub5'00 <ref>[https://360digitmg.com/blog/recurrent-neural-networks What is Recurrent Neural Network]</ref> benchmark without using any traditional speech processing methods.<ref name="hannun2014">{{cite arxiv |last1=Hannun |first1=Awni |last2=Case |first2=Carl |last3=Casper |first3=Jared |last4=Catanzaro |first4=Bryan |last5=Diamos |first5=Greg |last6=Elsen |first6=Erich |last7=Prenger |first7=Ryan |last8=Satheesh |first8=Sanjeev |last9=Sengupta |first9=Shubho |date=2014-12-17 |title=Deep Speech: Scaling up end-to-end speech recognition |eprint=1412.5567 |class=cs.CL}}</ref>


Las LSTM también han mejorado el reconocimiento del habla con vocabulario extenso <ref name="sak2014"/><ref name="liwu2015"/> y síntesis de [[text-to-speech]]<ref name="fan2015">Fan, Bo; Wang, Lijuan; Soong, Frank K.; Xie, Lei (2015) "Photo-Real Talking Head with Deep Bidirectional LSTM", in ''Proceedings of ICASSP 2015''</ref> y fueron utilizadas en [[Google Android]].<ref name="schmidhuber2015" /><ref name="zen2015">{{Cite web |url=https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43266.pdf |title=Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis |last1=Zen |first1=Heiga |last2=Sak |first2=Haşim |year=2015 |website=Google.com |publisher=ICASSP |pages=4470–4474 }}</ref> En 2015, el reconocimiento de voz de Google experimentó una mejora en su rendimiento del 49%, de acuerdo con sus fuentes{{Citation needed|date=November 2016}} gracias a una red LSTM CTC. <ref name="sak2015">{{Cite web |url=http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html |title=Google voice search: faster and more accurate |last1=Sak |first1=Haşim |last2=Senior |first2=Andrew |date=September 2015 |last3=Rao |first3=Kanishka |last4=Beaufays |first4=Françoise |last5=Schalkwyk |first5=Johan}}</ref>
Las LSTM también han mejorado el reconocimiento del habla con vocabulario extenso <ref name="sak2014"/><ref name="liwu2015"/> y síntesis de [[text-to-speech]]<ref name="fan2015">Fan, Bo; Wang, Lijuan; Soong, Frank K.; Xie, Lei (2015) "Photo-Real Talking Head with Deep Bidirectional LSTM", in ''Proceedings of ICASSP 2015''</ref> y fueron utilizadas en [[Google Android]].<ref name="schmidhuber2015" /><ref name="zen2015">{{Cite web |url=https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43266.pdf |title=Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis |last1=Zen |first1=Heiga |last2=Sak |first2=Haşim |year=2015 |website=Google.com |publisher=ICASSP |pages=4470–4474 }}</ref> En 2015, el reconocimiento de voz de Google experimentó una mejora en su rendimiento del 49%, de acuerdo con sus fuentes{{Citation needed|date=November 2016}} gracias a una red LSTM CTC. <ref name="sak2015">{{Cite web |url=http://googleresearch.blogspot.ch/2015/09/google-voice-search-faster-and-more.html |title=Google voice search: faster and more accurate |last1=Sak |first1=Haşim |last2=Senior |first2=Andrew |date=September 2015 |last3=Rao |first3=Kanishka |last4=Beaufays |first4=Françoise |last5=Schalkwyk |first5=Johan}}</ref>

Revisión del 12:11 25 sep 2023

Red Neuronal Recurrente (RNN): La estructura de una red neuronal artificial es relativamente simple y se refiere principalmente a la multiplicación de matrices. Durante el primer paso, las entradas se multiplican por pesos inicialmente aleatorios, y sesgo, transformados con una función de activación y los valores de salida se utilizan para hacer una predicción. Este paso da una idea de lo lejos que está la red de la realidad.

Red neuronal clásica Red neuronal recurrente
Los vectores de entrada producen vectores de salida Tratan datos secuenciales de forma eficiente
No mezclan información entre ejecuciones Recuerdan las salidas anteriores como entrada
Tratan una secuencia de datos de una sola vez Pueden tratar secuencias muy largas, elemento a elemento

El entrenamiento de una red neuronal recurrente debe prolongarse para cada paso temporal, lo que es muy costoso en tiempo de proceso y memoria RAM. Esto se simplifica “desenrollando” la red en tantas capas como pasos temporales o de datos se dispone en la secuencia temporal de entrenamiento, como si fuese una red no recurrente (feed-forward). Cada capa desenrollada tiene los mismos pesos para acelerar el proceso.

Como cuanto más larga sea la secuencia temporal a analizar, mayor será el número de capas debe desenrollar, puede aparecer el problema de desvanecimiento de gradiente (vanishing gradient). Esto se soluciona incorporando capas de tipo LSTM o GRU que permiten el backpropagation through time conectando eventos que aparezcan muy alejados en los datos de entrada, sin que su peso se diluye entre las capas.

Historia

Las redes neuronales recurrentes fueron basadas en el trabajo de David Rumelhart en 1986.[1]​ Las redes de Hopfield, un tipo especial de red recurrente, fueron descubiertas por John Hopfield en 1982. En 1993, un sistema compresor de historia neural resolvió una tarea "Very Deep Learning" que requirió desplegar más de 1000 capas de una red recurrente en un tiempo dado. [2]

LSTM

Redes neuronales Long short-term memory (LSTM) fueron inventadas por Hochreiter ySchmidhuber en 1997 y establecieron récords de eficiencia en distintos ámbitos de aplicación. [3]

Alrededor de 2007, las LSTM empezaron a revolucionar el reconocimiento del habla, superando ciertos modelos tradicionales en el campo. [4]​ En 2009, una red LSTM entrenada con Connectionist Temporal Classification (CTC) fue la primera RNN en ganar una competición de reconocimiento de patrones, ganando distintas competiciones en reconocimiento de lenguaje escrito [5][6]​ En 2014, la compañía china Baidu usó RNNs entrenadas con CTC para romper el dataset de reconocimiento del habla 2S09 Switchboard Hub5'00 [7]​ benchmark without using any traditional speech processing methods.[8]

Las LSTM también han mejorado el reconocimiento del habla con vocabulario extenso [9][10]​ y síntesis de text-to-speech[11]​ y fueron utilizadas en Google Android.[5][12]​ En 2015, el reconocimiento de voz de Google experimentó una mejora en su rendimiento del 49%, de acuerdo con sus fuentes[cita requerida] gracias a una red LSTM CTC. [13]

Las LSTM rompieron records en traducctión automática, [14]modelado de lenguaje, [15]​ y procesamiento de lenguaje multilingüe.[16]​ Una combinación de LSTM con redes neuronales convolucionales (CNNs) mejoró el subtitulado automático de imágenes.[17]


Referencias

  1. Williams, Ronald J.; Hinton, Geoffrey E.; Rumelhart, David E. (October 1986). «Learning representations by back-propagating errors». Nature 323 (6088): 533-536. Bibcode:1986Natur.323..533R. ISSN 1476-4687. S2CID 205001834. doi:10.1038/323533a0. 
  2. Schmidhuber, Jürgen (1993). Habilitation thesis: System modeling and optimization.  Página 150.
  3. Hochreiter, Sepp; Schmidhuber, Jürgen (1 de noviembre de 1997). «Long Short-Term Memory». Neural Computation 9 (8): 1735-1780. PMID 9377276. S2CID 1915014. doi:10.1162/neco.1997.9.8.1735. 
  4. Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). «An Application of Recurrent Neural Networks to Discriminative Keyword Spotting». Proceedings of the 17th International Conference on Artificial Neural Networks. ICANN'07 (Berlin, Heidelberg: Springer-Verlag). pp. 220-229. ISBN 978-3-540-74693-5. 
  5. a b Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas schmidhuber2015
  6. Graves, Alex; Schmidhuber, Jürgen (2009). Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris editor-K. I.; Culotta, Aron, eds. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. Neural Information Processing Systems (NIPS) Foundation. pp. 545-552. 
  7. What is Recurrent Neural Network
  8. Hannun, Awni; Case, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev et ál. (2014-12-17). «Deep Speech: Scaling up end-to-end speech recognition». arXiv:1412.5567  [cs.CL]. 
  9. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas sak2014
  10. Error en la cita: Etiqueta <ref> no válida; no se ha definido el contenido de las referencias llamadas liwu2015
  11. Fan, Bo; Wang, Lijuan; Soong, Frank K.; Xie, Lei (2015) "Photo-Real Talking Head with Deep Bidirectional LSTM", in Proceedings of ICASSP 2015
  12. Zen, Heiga; Sak, Haşim (2015). «Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis». Google.com. ICASSP. pp. 4470-4474. 
  13. Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (September 2015). «Google voice search: faster and more accurate». 
  14. Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V. (2014). «Sequence to Sequence Learning with Neural Networks». Electronic Proceedings of the Neural Information Processing Systems Conference 27: 5346. Bibcode:2014arXiv1409.3215S. arXiv:1409.3215. 
  15. Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016-02-07). «Exploring the Limits of Language Modeling». arXiv:1602.02410  [cs.CL]. 
  16. Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015-11-30). «Multilingual Language Processing From Bytes». arXiv:1512.00103  [cs.CL]. 
  17. Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014-11-17). «Show and Tell: A Neural Image Caption Generator». arXiv:1411.4555  [cs.CV].