Ecuación de Hamilton-Jacobi-Bellman

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

La ecuación de Hamilton-Jacobi-Bellman (HJB) es una ecuación diferencial parcial que es fundamental para la teoría de control óptimo. La solución de la ecuación HJB es la "función de valor", lo que da el costo-de-ir óptimo para un determinado sistema dinámico con una función de coste asociada.

Cuando se resuelve localmente, la HJB es una condición necesaria, pero cuando se resolvió sobre la totalidad del espacio de estados, la ecuación HJB es una condición necesaria y suficiente para un óptimo. La solución es de bucle abierto, pero también permite que la solución del problema sea de bucle cerrado. El método HJB puede ser generalizado a sistemas estocásticos.

Hay varios problemas variacionales clásicos, por ejemplo, el problema braquistocrona, se pueden resolver con este método.

La ecuación es un resultado de la teoría de programación dinámica, en la que Richard Bellman fue pionero en la década de 1950.[1] La ecuación de tiempo discreto correspondiente se refiere generalmente como la ecuación de Bellman. En tiempo continuo, el resultado puede ser visto como una extensión del trabajo a principios de la física clásica en la ecuación de Hamilton-Jacobi por William Rowan Hamilton y Carl Gustav Jacob Jacobi.

Problemas de control óptimo[editar]

Considere el siguiente problema de control óptimo determinista sobre el período de tiempo [0,T]:

V(x(0), 0) = \min_u \left\{ \int_0^T C[x(t),u(t)]\,dt + D[x(T)] \right\}

donde C[ ] es la función de tasa de coste escalar y D[ ] es una función que da el valor económico o utilidad en el estado final, x(t)es el vector de estado del sistema, se supone que x(0) esta dado, y que u(t) para cada 0 ≤ t ≤ T es el vector de control que estamos tratando de encontrar.

El sistema también debe ser objeto de

 \dot{x}(t)=F[x(t),u(t)] \,

donde F[ ] da el vector de la determinación de la evolución física del vector de estado con el tiempo.

La ecuación diferencial parcial[editar]

Para que este sistema simple, la ecuación diferencial parcial de Hamilton-Jacobi-Bellman es:


\dot{V}(x,t) + \min_u \left\{  \nabla V(x,t) \cdot F(x, u) + C(x,u) \right\} = 0

sujeto a la condición terminal


V(x,T) = D(x),\,

donde el a \cdot b significa que el producto escalar de los vectores A y B y \nabla es el gradiente de operador. El escalar desconocido V (x, t) en el PDE de arriba es el capitán " función de valor ", que representa el costo incurrido se inicie en el estado x en el momento t y controlar el sistema de manera óptima a partir de entonces hasta el momento T.

Derivación de la ecuación[editar]

Intuitivamente HJB se "deriva" de la siguiente manera. Si V (x (t), t) Es la mejor relación coste-to-go función (también denominada la "función de valor"), y luego por Richard Bellman principio de optimalidad , pasando de tiempo t al t + dt, tenemos:

 V(x(t), t) = \min_u \left\{ C(x(t), u(t)) \, dt  + V(x(t+dt), t+dt) \right\}.

Tenga en cuenta que el desarrollo de Taylor del último término es:

 V(x(t+dt), t+dt) = V(x(t), t) + \dot{V}(x(t), t) \, dt + \nabla V(x(t), t) \cdot \dot{x}(t) \, dt + o(dt),

donde o (dt) denota los términos en la expansión de Taylor de orden superior a uno. Entonces si cancelamos V (x (t), t) en ambos lados, se divide por dt, y tomamos el límite cuando se acerca dt cero, se obtiene la ecuación HJB definido anteriormente.

Resolución de la ecuación[editar]

La ecuación HJB suele resolverse usando Inducción hacia atrás, a partir de t = T y terminando en t = 0.

Cuando se resuelve sobre la totalidad del espacio de estados, la ecuación HJB es una condición necesaria y suficiente para un óptimo.[2] Si podemos resolver V entonces podemos encontrar un control de u que se consiga al mínimo coste.

En caso general, la ecuación HJB no tiene una solución clásica (suave). Varios conceptos de soluciones generalizadas se han desarrollado para cubrir este tipo de situaciones, incluyendo una solución de viscosidad (Pierre-Louis Lions y Michael Crandall), solución minimax ( Andrei Izmailovich Subbotin ), y otros.

Extensión a problemas estocásticos[editar]

La idea de la solución de un problema de control mediante la aplicación de principio de optimalidad de Bellman y luego trabajando hacia atrás en el tiempo de una estrategia de optimización puede ser generalizado a los problemas de control estocásticos. Considere similar a la anterior

 \min \left\{ \int_0^T C(t,X_t,u_t)\,dt + D(X_T) \right\}

ahora con (X_t)_{t \in [0,T]}\,\! el proceso estocástico para optimizar y (u_t)_{t \in [0,T]}\,\! la dirección. Por primera usando Bellman y luego expandir V(X_t,t) con la regla de Itô, así se encuentra la ecuación HJB estocástica.


\min_u \left\{ \mathcal{A} V(x,t) + C(t,x,u) \right\} = 0,

donde \mathcal{A} representa el operador de diferenciación estocástica, y sujeto a la condición terminal


V(x,T) = D(x)\,\!.

Tenga en cuenta que la aleatoriedad ha desaparecido. En este caso una solución V\,\! de este último no resuelve necesariamente el problema principal, que es un candidato y sólo se requiere un argumento verificar aún más. Esta técnica es ampliamente utilizado en las matemáticas financieras para determinar las estrategias óptimas de inversión en el mercado (véase, por ejemplo problema cartera de Merton).

Aplicación al control LQG[editar]

Como ejemplo, podemos mirar a un sistema con dinámica estocástica lineal y cuadrática. Si la dinámica del sistema está dada por:


dx_t = (a x_t + b u_t) dt + \sigma dw_t,

y el costo se acumula en tasa C(x_t,u_t) = r(t) u_t^2/2 + q(t) x_t^2/2, La ecuación HJB está dada por


-\frac{\partial V(x,t)}{\partial t} = \frac{1}{2}q(t) x^2 + \frac{\partial V(x,t)}{\partial x} a x - \frac{b^2}{2 r(t)} \left(\frac{\partial V(x,t)}{\partial x}\right)^2 + \sigma \frac{\partial^2 V(x,t)}{\partial x^2}.

Suponiendo una forma cuadrática de la función de valor, se obtiene la habitual ecuación de Riccati para la Arpillera de la función de valor como es habitual para el control lineal-cuadrática de Gauss

Referencias[editar]

  1. R. E. Bellman. Dynamic Programming. Princeton, NJ, 1957.
  2. Dimitri P Bertsekas. Dynamic programming and optimal control. Athena Scientific, 2005.