Aprendizaje por diferencias temporales

El aprendizaje por diferencias temporales (DT) se refiere a una clase de métodos de aprendizaje por refuerzo sin modelos que aprenden por bootstrapping a partir de la estimación actual de la función de valor. Estos métodos toman muestras del entorno, como los métodos de Monte Carlo, y realizan actualizaciones basadas en las estimaciones actuales, como los métodos de programación dinámica.^[1]

Mientras que los métodos Monte Carlo sólo ajustan sus estimaciones una vez que se conoce el resultado final, los métodos TD ajustan las predicciones para que coincidan con predicciones posteriores más precisas sobre el futuro antes de que se conozca el resultado final.^[2] Se trata de una forma de bootstrapping, como se ilustra con el siguiente ejemplo:

Supongamos que desea predecir el tiempo que hará el sábado, y dispone de algún modelo que predice el tiempo del sábado, dado el tiempo de cada día de la semana. En el caso normal, esperaría hasta el sábado y entonces ajustaría todos sus modelos. Sin embargo, cuando es, por ejemplo, viernes, debería tener una idea bastante aproximada del tiempo que hará el sábado y, por lo tanto, podría cambiar, por ejemplo, el modelo del sábado antes de que llegue el sábado.^[2]

Los métodos de diferencia temporal están relacionados con el modelo de diferencia temporal del aprendizaje animal.^[3]^[4]^[5]^[6]^[7]

Formulación matemática[editar]

El método TD(0) tabular es uno de los métodos TD más sencillos. Es un caso especial de los métodos de aproximación estocástica más generales. Estima la función de valor de estado de un proceso de decisión de Markov (MDP) de estado finito bajo una política $\pi$ . Sea $V^{\pi }$ denota la función de valor de estado del MDP con estados $(S_{t})_{t\in \mathbb {N} }$ , recompensa $(R_{t})_{t\in \mathbb {N} }$ y tipo de descuento ^[8] $\gamma$ bajo la pólitica $\pi$ :^[9]

$V^{\pi }(s)=E_{a\sim \pi }\left\{\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}{\Bigg |}S_{0}=s\right\}.$

Por comodidad, eliminamos la acción de la notación. $V^{\pi }$ satisface la ecuación de Hamilton-Jacobi-Bellman.

$V^{\pi }(s)=E_{\pi }\{R_{1}+\gamma V^{\pi }(S_{1})|S_{0}=s\},$

Entonces, $R_{1}+\gamma V^{\pi }(S_{1})$ es una estimación insesgada de $V^{\pi }(s)$ . Esta observación motiva el siguiente algoritmo para estimar $V^{\pi }$ .

El algoritmo comienza inicializando una tabla $V(s)$ arbitrariamente con un valor para cada estado del MDP. Se escoge una tasa de aprendizaje positiva $\alpha$ .

A continuación, evaluamos repetidamente la política $\pi$ , obteniendo una recompensa $r$ y actualizar la función de valor para el estado actual utilizando la regla:^[10]

V(S_{t})\leftarrow (1-\alpha )V(S_{t})+\underbrace {\alpha } _{\text{learning rate}}[\overbrace {R_{t+1}+\gamma V(S_{t+1})} ^{\text{The TD target}}]

Donde: $S_{t}$ y $S_{t+1}$ son el estado actual y el siguiente, respectivamente. El valor $R_{t+1}+\gamma V(S_{t+1})$ se conoce como objetivo TD, y $R_{t+1}+\gamma V(S_{t+1})-V(S_{t})$ se conoce como error TD.

TD-Lambda[editar]

TD-Lambda es un algoritmo de aprendizaje inventado por Richard S. Sutton basado en trabajos anteriores sobre el aprendizaje por diferencia temporal de Arthur Samuel.^[11] Este algoritmo fue famoso por ser aplicado por Gerald Tesauro para crear TD-Gammon, un programa que aprendía a jugar al backgammon al nivel de jugadores humanos expertos.^[12]

El parámetro ( $\lambda$ ) se refiere al parámetro de decaimiento de la traza, con $0\leqslant \lambda \leqslant 1$ . Los ajustes más altos conducen a rastros más duraderos; es decir, una mayor proporción del crédito de una recompensa puede otorgarse a estados y acciones más distantes cuando $\lambda$ es más alto, con $\lambda =1$ produciendo aprendizaje paralelo a los algoritmos Monte Carlo RL.^[13]

En neurociencia[editar]

El algoritmo TD también ha recibido atención en el campo de la neurociencia. Los investigadores descubrieron que la frecuencia de disparo de las neuronas dopaminérgicas del área tegmental ventral (ATV) y la sustancia negra (SNc) parecen imitar la función de error del algoritmo.^[3]^[4]^[5]^[6]^[7] La función de error informa de la diferencia entre la recompensa estimada en cualquier estado o paso temporal y la recompensa real recibida. Cuanto mayor sea la función de error, mayor será la diferencia entre la recompensa esperada y la real. Cuando esto se combina con un estímulo que refleja con precisión una recompensa futura, el error se puede utilizar para asociar el estímulo con la recompensa futura.

Las células dopaminérgicas parecen comportarse de forma similar. En un experimento, se realizaron mediciones de las células dopaminérgicas mientras se entrenaba a un mono para asociar un estímulo con la recompensa de un zumo.^[14] Inicialmente, las células dopaminérgicas aumentaron su frecuencia de disparo cuando el mono recibía zumo, indicando una diferencia entre la recompensa esperada y la real. Con el tiempo, este aumento de la frecuencia de disparo se propagó al estímulo más fiable para la recompensa. Una vez que el mono estaba completamente entrenado, no se producía ningún aumento de la frecuencia de disparo cuando se presentaba la recompensa prevista. Posteriormente, la tasa de activación de las células dopaminérgicas disminuía por debajo de la activación normal cuando no se producía la recompensa esperada. Esto imita muy de cerca cómo se utiliza la función de error en la TD para el aprendizaje por refuerzo.

La relación entre el modelo y la posible función neurológica ha dado lugar a investigaciones que intentan utilizar la TD para explicar muchos aspectos de la investigación conductual.^[15]^[16]También se ha utilizado para estudiar afecciones como la esquizofrenia o las consecuencias de las manipulaciones farmacológicas de la dopamina en el aprendizaje.^[17]

Véase también[editar]

Referencias[editar]

↑ «Temporal difference learning». Wikipedia (en inglés): 133. 2018. |fechaacceso= requiere |url= (ayuda)
↑ ^a ^b Sutton, Richard S. (1 de agosto de 1988). «Learning to predict by the methods of temporal differences». Machine Learning (en inglés) 3 (1): 9-44. ISSN 1573-0565. doi:10.1007/BF00115009. Consultado el 15 de febrero de 2024.
↑ ^a ^b Schultz, W, Dayan, P & Montague, PR. (1997). «"A neural substrate of prediction and reward"». Science. PMID 9054347. doi:10.1126/science.275.5306.1593.
↑ ^a ^b Montague, P. R.; Dayan, P.; Sejnowski, T. J. (1996). «A framework for mesencephalic dopamine systems based on predictive Hebbian learning». The Journal of Neuroscience. PMID 8774460. doi:10.1523/JNEUROSCI.16-05-01936.1996.
↑ ^a ^b Montague, P.R.; Dayan, P.; Nowlan, S.J.; Pouget, A.; Sejnowski, T.J. (1993). «"Using aperiodic reinforcement for directed self-organization"». Advances in Neural Information Processing Systems.
↑ ^a ^b Montague, P. R.; Sejnowski, T. J. (1994). «"The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms"». Learning & Memory. PMID 10467583. doi:10.1101/lm.1.1.1.
↑ ^a ^b Montague, P. R.; Sejnowski, T. J. (1 de mayo de 1994). «The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms.». Learning & Memory (en inglés) 1 (1): 1-33. ISSN 1072-0502. PMID 10467583. doi:10.1101/lm.1.1.1. Consultado el 15 de febrero de 2024.
↑ Discount rate parameter allows for a time preference toward more immediate rewards, and away from distant future rewards
↑ «Temporal difference learning». Wikipedia (en inglés): 134. 2018. |fechaacceso= requiere |url= (ayuda)
↑ Sutton, Richard S.; Barto, Andrew G. (2'018). «Reinforcement Learning: An Introduction». Cambridge, MA: MIT Press.: 135.
↑ Sutton, Richard S.; Barto, Andrew G. (2018). «Reinforcement Learning: An Introduction». Cambridge, MA: MIT Press.
↑ Tesauro, Gerald (1995). «"Temporal Difference Learning and TD-Gammon"». Communications of the ACM.
↑ Sutton, Richard S.; Barto, Andrew G. (2018). «Reinforcement Learning: An Introduction». Cambridge, MA: MIT Press.: 175.
↑ Schultz, W. (1998). «Predictive reward signal of dopamine neurons». Journal of Neurophysiology. PMID 9658025. doi:10.1152/jn.1998.80.1.1.
↑ Dayan, P. (2001). «Motivated reinforcement learning». Advances in Neural Information Processing Systems.MIT Press. Archivado desde el original el 25 de mayo de 2012. Consultado el 16 de febrero de 2024.
↑ Tobia, Michael J.; Guo, Rong; Gläscher, Jan; Schwarze, Ulrike; Brassen, Stefanie; Büchel, Christian; Obermayer, Klaus; Sommer, Tobias (1 de junio de 2016). «Altered behavioral and neural responsiveness to counterfactual gains in the elderly». Cognitive, Affective, & Behavioral Neuroscience (en inglés) 16 (3): 457-472. ISSN 1531-135X. doi:10.3758/s13415-016-0406-7. Consultado el 16 de febrero de 2024.
↑ Smith, A., Li, M., Becker, S. and Kapur, S. (2006). «Dopamine, prediction error, and associative learning: a model-based account".». Network: Computation in Neural Systems.

Enlaces externos[editar]

Connect Four TDGravity Applet Archivado el 24 de julio de 2012 en Wayback Machine. (+ mobile phone version) – self-learned using TD-Leaf method (combination of TD-Lambda with shallow tree search)
Self Learning Meta-Tic-Tac-Toe Archivado el 19 de marzo de 2014 en Wayback Machine. Example web app showing how temporal difference learning can be used to learn state evaluation constants for a minimax AI playing a simple board game.
Reinforcement Learning Problem, document explaining how temporal difference learning can be used to speed up Q-learning
TD-Simulator Temporal difference simulator for classical conditioning

[1] «Temporal difference learning». Wikipedia (en inglés): 133. 2018. |fechaacceso= requiere |url= (ayuda)

[:0-2] Sutton, Richard S. (1 de agosto de 1988). «Learning to predict by the methods of temporal differences». Machine Learning (en inglés) 3 (1): 9-44. ISSN 1573-0565. doi:10.1007/BF00115009. Consultado el 15 de febrero de 2024.

[:1-3] Schultz, W, Dayan, P & Montague, PR. (1997). «"A neural substrate of prediction and reward"». Science. PMID 9054347. doi:10.1126/science.275.5306.1593.

[:2-4] Montague, P. R.; Dayan, P.; Sejnowski, T. J. (1996). «A framework for mesencephalic dopamine systems based on predictive Hebbian learning». The Journal of Neuroscience. PMID 8774460. doi:10.1523/JNEUROSCI.16-05-01936.1996.

[:3-5] Montague, P.R.; Dayan, P.; Nowlan, S.J.; Pouget, A.; Sejnowski, T.J. (1993). «"Using aperiodic reinforcement for directed self-organization"». Advances in Neural Information Processing Systems.

[:4-6] Montague, P. R.; Sejnowski, T. J. (1994). «"The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms"». Learning & Memory. PMID 10467583. doi:10.1101/lm.1.1.1.

[:5-7] Montague, P. R.; Sejnowski, T. J. (1 de mayo de 1994). «The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms.». Learning & Memory (en inglés) 1 (1): 1-33. ISSN 1072-0502. PMID 10467583. doi:10.1101/lm.1.1.1. Consultado el 15 de febrero de 2024.

[8] Discount rate parameter allows for a time preference toward more immediate rewards, and away from distant future rewards

[9] «Temporal difference learning». Wikipedia (en inglés): 134. 2018. |fechaacceso= requiere |url= (ayuda)

[10] Sutton, Richard S.; Barto, Andrew G. (2'018). «Reinforcement Learning: An Introduction». Cambridge, MA: MIT Press.: 135.

[11] Sutton, Richard S.; Barto, Andrew G. (2018). «Reinforcement Learning: An Introduction». Cambridge, MA: MIT Press.

[12] Tesauro, Gerald (1995). «"Temporal Difference Learning and TD-Gammon"». Communications of the ACM.

[13] Sutton, Richard S.; Barto, Andrew G. (2018). «Reinforcement Learning: An Introduction». Cambridge, MA: MIT Press.: 175.

[14] Schultz, W. (1998). «Predictive reward signal of dopamine neurons». Journal of Neurophysiology. PMID 9658025. doi:10.1152/jn.1998.80.1.1.

[15] Dayan, P. (2001). «Motivated reinforcement learning». Advances in Neural Information Processing Systems.MIT Press. Archivado desde el original el 25 de mayo de 2012. Consultado el 16 de febrero de 2024.

[16] Tobia, Michael J.; Guo, Rong; Gläscher, Jan; Schwarze, Ulrike; Brassen, Stefanie; Büchel, Christian; Obermayer, Klaus; Sommer, Tobias (1 de junio de 2016). «Altered behavioral and neural responsiveness to counterfactual gains in the elderly». Cognitive, Affective, & Behavioral Neuroscience (en inglés) 16 (3): 457-472. ISSN 1531-135X. doi:10.3758/s13415-016-0406-7. Consultado el 16 de febrero de 2024.

[17] Smith, A., Li, M., Becker, S. and Kapur, S. (2006). «Dopamine, prediction error, and associative learning: a model-based account".». Network: Computation in Neural Systems.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]