Unidades recurrentes cerradas

De Wikipedia, la enciclopedia libre

Las unidades recurrentes cerradas (GRU, por sus siglas en inglés) son un mecanismo de compuerta en redes neuronales recurrentes, introducido en 2014 por Kyunghyun Cho et al.[1]​ La GRU es como una memoria a largo plazo (LSTM, por sus siglas en inglés) con un mecanismo de compuerta para introducir u olvidar ciertas características,[2]​ pero carece de vector de contexto o compuerta de salida, lo que resulta en menos parámetros que la LSTM.[3]​ El rendimiento de la GRU en determinadas tareas de modelado de música polifónica, modelado de señales de voz y procesamiento de lenguaje natural fue similar al de la LSTM.[4][5]​ Las GRU demostraron que la compuerta es útil en general, y el equipo de Bengio no llegó a ninguna conclusión concreta sobre cuál de las dos unidades de compuerta era mejor.[6][7]

Arquitectura[editar]

Existen diversas variaciones de la unidad de compuerta completa, en la que la compuerta se realiza utilizando el estado oculto anterior y el sesgo en diversas combinaciones, y una forma simplificada denominada unidad de compuerta mínima.[8]

El operador denota el producto Hadamard en lo siguiente:

Unidad totalmente cerrada[editar]

Inicialmente, para , el vector de salida es .

Unidad Recurrente Cerrada, versión totalmente cerrada

Variables ( denota el número de características de entrada y el número de características de salida):

  • : vector de entrada
  • : vector de salida
  • : vector de activación candidato
  • : actualizar el vector de puerta
  • : resetear vector puerta
  • , and : matrices de parámetros y vectores que deben aprenderse durante el entrenamiento.

Funciones de activación

Son posibles funciones de activación alternativas, siempre que: .

Tipo 1

Se pueden crear formas alternativas cambiando y .[9]

  • Tipo 1, cada puerta depende sólo del estado oculto anterior y del sesgo.
  • Tipo 2, cada puerta depende sólo del estado oculto anterior.
Tipo 2
  • Tipo 3, cada puerta se calcula utilizando sólo el sesgo.

Unidad mínima cerrada[editar]

Tipo 3

La unidad mínima cerrada (MGU) es similar a la unidad de compuerta completa, salvo que el vector de compuerta de actualización y reinicio se fusiona en una compuerta de olvido. Esto también implica que la ecuación para el vector de salida debe cambiarse:[10]

Variables

  • : vector de entrada
  • : vector de salida
  • : vector de activación candidato
  • : vector de olvido
  • , y : matrices de parámetros y vector

Unidad recurrente ligera[editar]

La unidad recurrente activada por luz (LiGRU)[4]​ elimina la puerta de reinicio, sustituye tanh por la activación ReLU y aplica la normalización por lotes (BN):

La LiGRU se ha estudiado desde una perspectiva bayesiana.[11]​ Este análisis dio lugar a una variante denominada unidad recurrente bayesiana ligera (LiBRU), que mostró ligeras mejoras sobre la LiGRU en tareas de reconocimiento del habla.

Referencias[editar]

  1. Cho, Kyunghyun; van Merrienboer, Bart; Bahdanau, DZmitry; Bougares, Fethi; Schwenk, Holger; Bengio, Yoshua (2014). «"Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation".». Association for Computational Linguistics. 
  2. Felix Gers; Jürgen Schmidhuber; Fred Cummins (1999). «Learning to forget: Continual prediction with LSTM".». 9th International Conference on Artificial Neural Networks: ICANN '99. ISBN 0-85296-721-7. doi:10.1049/cp:19991218. 
  3. «Recurrent Neural Network Tutorial, Part 4 – Implementing a GRU/LSTM RNN with Python and Theano – WildML». web.archive.org. 10 de noviembre de 2021. Consultado el 9 de marzo de 2024. 
  4. a b Ravanelli, Mirco; Brakel, Philemon; Omologo, Maurizio; Bengio, Yoshua (2018). «"Light Gated Recurrent Units for Speech Recognition"». IEEE Transactions on Emerging Topics in Computational Intelligence. doi:10.1109/TETCI.2017.2762739. 
  5. Su, Yuahang; Kuo, Jay (2019). «"On extended long short-term memory and dependent bidirectional recurrent neural network"». Neurocomputing. doi:10.1016/j.neucom.2019.04.044. 
  6. Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling". 
  7. Gruber, N.; Jockisch, A. (2020). «"Are GRU cells more specific and LSTM cells more sensitive in motive classification of text?». Frontiers in Artificial Intelligence. PMC 7861254. PMID 33733157. doi:10.3389/frai.2020.00040. 
  8. Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). "Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling". 
  9. Dey, Rahul; Salem, Fathi M. (2017). "Gate-Variants of Gated Recurrent Unit (GRU) Neural Networks". 
  10. Heck, Joel; Salem, Fathi M. (2017). "Simplified Minimal Gated Unit Variations for Recurrent Neural Networks". 
  11. Bittar, Alexandre; Garner, Philip N. (2021-06). «A Bayesian Interpretation of the Light Gated Recurrent Unit». ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 2965-2969. doi:10.1109/ICASSP39728.2021.9414259. Consultado el 11 de marzo de 2024.