Modelo Rescorla-Wagner

El modelo de Rescorla-Wagner ("R-W") es un modelo de condicionamiento clásico, en el que el aprendizaje se conceptualiza en términos de asociaciones entre estímulos condicionados (CS por sus siglas en inglés) e incondicionados (US por sus siglas en inglés). Una fuerte asociación CS-US significa que las señales CS predicen el US. Se podría decir que antes del condicionamiento, el sujeto se sorprende por el US, pero después del condicionamiento, el sujeto ya no se sorprende, porque el CS predice la llegada del US. El modelo divide los procesos de condicionamiento en ensayos discretos, durante los cuales los estímulos pueden estar presentes o ausentes. La fuerza de predicción del EE en un ensayo puede representarse como la suma de las fuerzas asociativas de todos los EC presentes durante el ensayo. Esta característica del modelo supuso un gran avance con respecto a los modelos anteriores y permitió una explicación directa de importantes fenómenos experimentales, sobre todo el efecto de bloqueo. Los fallos del modelo han dado lugar a modificaciones, modelos alternativos y muchos descubrimientos adicionales. En los últimos años, el modelo ha tenido cierta repercusión en la ciencia neuronal, ya que algunos estudios han sugerido que la actividad fásica de las neuronas dopaminérgicas en las proyecciones DA mesostriatales del mesencéfalo codifica el tipo de error de predicción detallado en el modelo.^[1]

El modelo Rescorla-Wagner fue creado por los psicólogos de Yale Robert A. Rescorla y Allan R. Wagner en 1972.

Supuestos básicos del modelo[editar]

El cambio en la asociación entre un CS y un US que se produce cuando ambos se emparejan depende de la fuerza con la que se predice el US en ese ensayo, es decir, informalmente, de lo "sorprendido" que esté el organismo por el US. La magnitud de esta "sorpresa" depende de la suma de la fuerza asociativa de todas las claves presentes en ese ensayo. En cambio, los modelos anteriores derivaban el cambio en la fuerza asociativa únicamente del valor actual del CS.
La fuerza asociativa de un CS se representa mediante un único número. La asociación es excitatoria si el número es positivo e inhibitoria si es negativo.
La fuerza asociativa de un estímulo se expresa directamente por la conducta que provoca/inhibe.
La saliencia de un CS (alfa en la ecuación) y la fuerza del US (beta) son constantes y no cambian durante el entrenamiento.
Sólo la fuerza asociativa actual de un indicio determina su efecto sobre el comportamiento y la cantidad de aprendizaje que favorece. No importa cómo se haya llegado a ese valor de fuerza, ya sea por simple condicionamiento, reacondicionamiento o de otro modo.

Los dos primeros supuestos son nuevos en el modelo Rescorla-Wagner. Los tres últimos supuestos estaban presentes en modelos anteriores y son menos cruciales para las novedosas predicciones del modelo R-W.

Ecuación[editar]

\Delta V_{X}^{n+1}=\alpha _{X}\beta (\lambda -V_{\mathrm {tot} })

y

V_{X}^{n+1}=V_{X}^{n}+\Delta V_{X}^{n+1}

Donde:

$\Delta V_{X}$ es el cambio en la intensidad, en un único ensayo, de la asociación entre el CS etiquetado "X" y el US
$\alpha$ es la saliencia de X (delimitada por 0 y 1)
$\beta$ es el parámetro de tasa de US (delimitado por 0 y 1), a veces denominado valor de asociación
$\lambda$ es el máximo condicionamiento posible para US
$V_{X}$ es la fuerza asociativa actual de X
$V_{\mathrm {tot} }$ es la fuerza asociativa total de todos los estímulos presentes, es decir, X más cualquier otro

^[2]

El modelo RW revisado de Van Hamme y Wasserman (1994)[editar]

Van Hamme y Wasserman ampliaron el modelo original de Rescorla-Wagner (RW) e introdujeron un nuevo factor en su modelo RW revisado en 1994:^[3] Sugirieron que no sólo los estímulos condicionados físicamente presentes en un ensayo determinado pueden sufrir cambios en su fuerza asociativa, sino que el valor asociativo de un CS también puede verse alterado por una asociación dentro de un compuesto con un CS presente en ese ensayo. Se establece una asociación dentro de un compuesto si se presentan dos CS juntos durante el entrenamiento (estímulo compuesto). Si uno de los dos CS componentes se presenta posteriormente solo, se supone que activa también una representación del otro CS (previamente emparejado). Van Hamme y Wasserman proponen que los estímulos activados indirectamente mediante asociaciones dentro de un compuesto tienen un parámetro de aprendizaje negativo, lo que permite explicar los fenómenos de reevaluación retrospectiva.

Consideremos el siguiente ejemplo, un paradigma experimental denominado "bloqueo hacia atrás", indicativo de revalorización retrospectiva, donde AB es el estímulo compuesto A+B:

Fase 1: AB-US
Fase 2: A-US

Ensayos de prueba: El grupo 1, que recibió ensayos de fase 1 y 2, provoca una respuesta condicionada (RC) más débil a B en comparación con el grupo de control, que solo recibió ensayos de fase 1.

El modelo RW original no puede explicar este efecto. Pero el modelo revisado sí puede: En la fase 2, el estímulo B se activa indirectamente a través de la asociación intracompuesta con A. Pero en lugar de un parámetro de aprendizaje positivo (normalmente llamado alfa) cuando está físicamente presente, durante la fase 2, B tiene un parámetro de aprendizaje negativo. Así, durante la segunda fase, la fuerza asociativa de B disminuye, mientras que el valor de A aumenta debido a su parámetro de aprendizaje positivo.

Por lo tanto, el modelo RW revisado puede explicar por qué la RC provocada por B después del entrenamiento de bloqueo hacia atrás es más débil en comparación con el condicionamiento sólo AB.

Algunos fallos en el modelo RW[editar]

Recuperación espontánea de la extinción y recuperación de la extinción provocada por tratamientos recordatorios (reinserción)

Es una observación bien establecida que un intervalo de tiempo fuera después de completar la extinción produce una recuperación parcial de la extinción, es decir, la reacción o respuesta previamente extinguida reaparece, pero normalmente a un nivel más bajo que antes del entrenamiento de extinción. La reinstauración se refiere al fenómeno de que la exposición al EE.UU. del entrenamiento solo después de completar la extinción produce una recuperación parcial de la extinción. El modelo RW no puede dar cuenta de estos fenómenos.

Extinción de un inhibidor previamente condicionado

El modelo RW predice que la presentación repetida de un inhibidor condicionado solo (un CS con fuerza asociativa negativa) resulta en la extinción de este estímulo (una disminución de su valor asociativo negativo). Se trata de una predicción falsa. Por el contrario, los experimentos muestran que la presentación repetida de un inhibidor condicionado por sí solo incluso aumenta su potencial inhibitorio.

Readquisición facilitada tras la extinción

Uno de los supuestos del modelo es que el historial de condicionamiento de un CS no influye en su estado actual: sólo importa su valor asociativo actual. Contrariamente a este supuesto, muchos experimentos^[4] muestran que los estímulos que primero se condicionaron y luego se extinguieron se reacondicionan más fácilmente (es decir, se necesitan menos ensayos para el condicionamiento).

La exclusividad de la excitación y la inhibición

El modelo RW también asume que la excitación y la inhibición son características opuestas. Un estímulo puede tener un potencial excitador (una fuerza asociativa positiva) o un potencial inhibidor (una fuerza asociativa negativa), pero no ambos. En cambio, a veces se observa que los estímulos pueden tener ambas cualidades. Un ejemplo es el condicionamiento excitatorio hacia atrás, en el que un CS se empareja hacia atrás con un US (US-CS en lugar de CS-US). Esto suele hacer que el CS se convierta en un excitador condicionado. El estímulo también tiene características inhibitorias que pueden comprobarse mediante la prueba de retardo de la adquisición. Esta prueba se utiliza para evaluar el potencial inhibitorio de un estímulo, ya que se observa que se retrasa el condicionamiento excitatorio con un inhibidor previamente condicionado. El estímulo condicionado hacia atrás supera esta prueba y, por tanto, parece tener características tanto excitatorias como inhibitorias.

Emparejar un estímulo nuevo con un inhibidor condicionado

Se supone que un inhibidor condicionado tiene un valor asociativo negativo. Al presentar un inhibidor con un estímulo novedoso (es decir, su fuerza asociativa es cero), el modelo predice que la pista novedosa debería convertirse en un excitador condicionado. Esto no ocurre en situaciones experimentales. Las predicciones del modelo se derivan de su término básico (lambda-V). Dado que la suma de la fuerza asociativa de todos los estímulos (V) presentes en el ensayo es negativa (cero + potencial inhibitorio) y lambda es cero (no hay US presente), el cambio resultante en la fuerza asociativa es positivo, lo que convierte a la nueva señal en un excitador condicionado.

Efecto de la exposición previa al CS

El efecto de preexposición al CS (también llamado inhibición latente) es la observación bien establecida de que se retrasa el condicionamiento tras la exposición al estímulo utilizado posteriormente como CS en el condicionamiento. El modelo RW no predice ningún efecto de la presentación de un estímulo novedoso sin un US.

Condicionamiento de orden superior

En el condicionamiento de orden superior, un CS previamente condicionado se empareja con una nueva señal (es decir, primero CS1-US y luego CS2-CS1). Esto suele hacer que la nueva señal CS2 provoque reacciones similares a las de la CS1. El modelo no puede explicar este fenómeno, ya que durante los ensayos CS2-CS1 no hay US. Pero si se permite que el CS1 actúe de forma similar a un US, se puede reconciliar el modelo con este efecto.

Preacondicionamiento sensorial

El preacondicionamiento sensorial consiste en emparejar primero dos claves nuevas (CS1-CS2) y luego emparejar una de ellas con un US (CS2-US). Esto convierte tanto el CS1 como el CS2 en excitadores condicionados. El modelo RW no puede explicar esto, ya que durante la fase CS1-CS2 ambos estímulos tienen un valor asociativo de cero y lambda también es cero (no hay US presente), lo que resulta en ningún cambio en la fuerza asociativa de los estímulos.

Éxito y popularidad[editar]

El modelo Rescorla-Wagner debe su éxito a varios factores, entre ellos^[2]

tiene relativamente pocos parámetros libres y variables independientes
puede generar predicciones claras y ordinales
ha realizado una serie de predicciones acertadas
en términos de "predicción" y "sorpresa", el modelo tiene un atractivo intuitivo
ha generado una gran cantidad de investigaciones, incluidos muchos nuevos descubrimientos y teorías alternativas

Referencias[editar]

↑ Hazy, Thomas E.; Frank, Michael J.; O’Reilly, Randall C. (2010). «"Neural Mechanisms Supporting Acquired Phasic Dopamine Responses in Learning: An Integrative Synthesis"». Neuroscience and Biobehavioral Reviews. PMID 19944716. doi:10.1016/j.neubiorev.2009.11.019.
↑ ^a ^b Miller, Ralph R.; Barnet, Robert C.; Grahame, Nicholas J. (1995). «"Assessment of the Rescorla-Wagner Model"». Psychological Bulletin. American Psychological Association. PMID 7777644. doi:10.1037/0033-2909.117.3.363.
↑ Van Hamme, L.J.; Wasserman, E.A. (1994). «"Cue competition in causality judgements: The role of nonpresentation of compound stimulus elements». Learning and Motivation. doi:10.1006/lmot.1994.1008.
↑ Napier, R.M.; Macrae, M.; Kehoe, E. J. (1992). «Rapid reacquisition in conditioning of the rabbit's nictitating membrane response». Journal of Experimental Psychology: Animal Behavior Processes. doi:10.1037/0097-7403.18.2.182.

Rescorla, R.A. & Wagner, A.R. (1972) A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement, Classical Conditioning II, A.H. Black & W.F. Prokasy, Eds., pp. 64–99. Appleton-Century-Crofts

Enlaces externos[editar]

Scholarpedia Rescorla–Wagner model
RW Simulator Rescorla-Wagner Model simulator
Rescorla-Wagner simulator in browser
Simulator with design

[1] Hazy, Thomas E.; Frank, Michael J.; O’Reilly, Randall C. (2010). «"Neural Mechanisms Supporting Acquired Phasic Dopamine Responses in Learning: An Integrative Synthesis"». Neuroscience and Biobehavioral Reviews. PMID 19944716. doi:10.1016/j.neubiorev.2009.11.019.

[:0-2] Miller, Ralph R.; Barnet, Robert C.; Grahame, Nicholas J. (1995). «"Assessment of the Rescorla-Wagner Model"». Psychological Bulletin. American Psychological Association. PMID 7777644. doi:10.1037/0033-2909.117.3.363.

[3] Van Hamme, L.J.; Wasserman, E.A. (1994). «"Cue competition in causality judgements: The role of nonpresentation of compound stimulus elements». Learning and Motivation. doi:10.1006/lmot.1994.1008.

[4] Napier, R.M.; Macrae, M.; Kehoe, E. J. (1992). «Rapid reacquisition in conditioning of the rabbit's nictitating membrane response». Journal of Experimental Psychology: Animal Behavior Processes. doi:10.1037/0097-7403.18.2.182.

[1]

[2]

[3]

[4]