Función de valor

De Wikipedia, la enciclopedia libre

La función de valor de un problema de optimización proporciona el valor alcanzado por la función de pérdida de una solución, siempre y cuando solo dependa de los parámetros del problema.[1][2]

Propiedades[editar]

En un sistema dinámico controlado, la función de valor representa el resultado óptimo del sistema en el intervalo [t, t1] cuando se inicia la variable de estado en el momento t x(t)=x.[3]​ Si la función objetivo representa algún costo que debe minimizarse, la función de valor puede interpretarse como el costo para terminar el programa óptimo y, por lo tanto, se la denomina "función de costo pendiente".[4][5]​ En un contexto económico, donde la función objetivo generalmente representa la utilidad obtenida, la función de valor es conceptualmente equivalente a la función de utilidad indirecta.[6][7]

En un problema de control óptimo, la función de valor se define como el elemento supremo e ínfimo de la función objetivo tomada sobre el conjunto de controles admisibles. Dado , un problema típico de control óptimo es:

sujeto a

con variable de estado inicial .[8]​ La función objetivo debe maximizarse sobre todos los controles admisibles , donde es una función medible de Lebesgue dependiente de sobre algún conjunto arbitrario prescrito en . La función de valor se define entonces como:

con , donde es el "valor residual". Si el par óptimo de trayectorias de control y estado es , entonces . La función que proporciona el control óptimo en función del estado actual se denomina política de control de retroalimentación,[4]​ o simplemente función de política.[9]

El principio de optimización de Bellman establece aproximadamente que cualquier política óptima en el momento , tomando como el estado actual tratado como condición inicial "nueva" debe ser óptima para el problema restante. Si la función de valor resulta ser continuamente diferenciable,[10]​ esto da lugar a una ecuación en derivadas parciales importante, conocida como ecuación de Hamilton-Jacobi-Bellman

donde el maximizador en el lado derecho de la ecuación también se puede reescribir como un hamiltoniano, , como

con desempeñando el papel de las variables de costo.[11]​ Dada esta definición, se tiene además que , y después de diferenciar ambos lados de la ecuación de Hamilton-Jacobi-Bellman con respecto a ,

que, tras reemplazar los términos apropiados, recupera la ecuación de costes

donde se expresa según la notación de Newton de la derivada con respecto al tiempo.[12]

La función de valor es la única solución de viscosidad de la ecuación de Hamilton-Jacobi-Bellman.[13]​ En un control óptimo aproximado de bucle cerrado en línea, la función de valor también es una función de Liapunov que establece la estabilidad asintótica global del sistema de bucle cerrado.[14]

Referencias[editar]

  1. Fleming, Wendell H.; Rishel, Raymond W. (1975). Deterministic and Stochastic Optimal Control. New York: Springer. pp. 81-83. ISBN 0-387-90155-8. 
  2. Caputo, Michael R. (2005). Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications. New York: Cambridge University Press. p. 185. ISBN 0-521-60368-4. 
  3. Weber, Thomas A. (2011). Optimal Control Theory : with Applications in Economics. Cambridge: The MIT Press. p. 82. ISBN 978-0-262-01573-8. 
  4. a b Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Neuro-Dynamic Programming. Belmont: Athena Scientific. p. 2. ISBN 1-886529-10-8. 
  5. «EE365: Dynamic Programming». 
  6. Mas-Colell, Andreu; Whinston, Michael D.; Green, Jerry R. (1995). Microeconomic Theory. New York: Oxford University Press. p. 964. ISBN 0-19-507340-1. 
  7. Corbae, Dean; Stinchcombe, Maxwell B.; Zeman, Juraj (2009). An Introduction to Mathematical Analysis for Economic Theory and Econometrics. Princeton University Press. p. 145. ISBN 978-0-691-11867-3. 
  8. Kamien, Morton I.; Schwartz, Nancy L. (1991). Dynamic Optimization : The Calculus of Variations and Optimal Control in Economics and Management (2nd edición). Amsterdam: North-Holland. p. 259. ISBN 0-444-01609-0. 
  9. Ljungqvist, Lars; Sargent, Thomas J. (2018). Recursive Macroeconomic Theory (Fourth edición). Cambridge: MIT Press. p. 106. ISBN 978-0-262-03866-9. 
  10. Benveniste y Scheinkman establecieron condiciones suficientes para la diferenciabilidad de la función de valor, que a su vez permite una aplicación del teorema de la envolvente, véase Benveniste, L. M.; Scheinkman, J. A. (1979). «On the Differentiability of the Value Function in Dynamic Models of Economics». Econometrica 47 (3): 727-732. JSTOR 1910417. doi:10.2307/1910417.  Ver también Seierstad, Atle (1982). «Differentiability Properties of the Optimal Value Function in Control Theory». Journal of Economic Dynamics and Control 4: 303-310. doi:10.1016/0165-1889(82)90019-7. 
  11. Kirk, Donald E. (1970). Optimal Control Theory. Englewood Cliffs, NJ: Prentice-Hall. p. 88. ISBN 0-13-638098-0. 
  12. Zhou, X. Y. (1990). «Maximum Principle, Dynamic Programming, and their Connection in Deterministic Control». Journal of Optimization Theory and Applications 65 (2): 363-373. S2CID 122333807. doi:10.1007/BF01102352. 
  13. Theorem 10.1 in Bressan, Alberto (2019). «Viscosity Solutions of Hamilton-Jacobi Equations and Optimal Control Problems». Lecture Notes. 
  14. Kamalapurkar, Rushikesh; Walters, Patrick; Rosenfeld, Joel; Dixon, Warren (2018). «Optimal Control and Lyapunov Stability». Reinforcement Learning for Optimal Feedback Control: A Lyapunov-Based Approach. Berlin: Springer. pp. 26-27. ISBN 978-3-319-78383-3. 

Lecturas adicionales[editar]