Multiplicadores de Lagrange

En los problemas de optimización, el método de los multiplicadores de Lagrange, llamados así en honor a Joseph Louis Lagrange, es un procedimiento para encontrar los máximos y mínimos relativos (o locales) de funciones de múltiples variables sujetas a restricciones.^[1] Este método reduce el problema restringido con n variables a uno sin restricciones de n + k variables, donde k es igual al número de restricciones, y cuyas ecuaciones pueden ser resueltas más fácilmente. Estas nuevas variables escalares desconocidas, una para cada restricción, son llamadas multiplicadores de Lagrange. El método dice que los puntos donde la función tiene un extremo condicionado con k restricciones, están entre los puntos estacionarios de una nueva función sin restricciones construida como una combinación lineal de la función y las funciones implicadas en las restricciones, cuyos coeficientes son los multiplicadores.

La demostración usa derivadas parciales y la regla de la cadena para funciones de varias variables. Se trata de extraer una función implícita de las restricciones, y encontrar las condiciones para que las derivadas parciales con respecto a las variables independientes de la función sean iguales a cero.

Introducción[editar]

Consideremos un caso tridimensional. Supongamos que tenemos la función, f (x, y), y queremos maximizarla, estando sujeta a la condición:

g(x,y)=c

donde c es una constante. Podemos visualizar las curvas de nivel de f dadas por

f(x,y)=d_{n}

para varios valores de d_n, y el contorno de g dado por g(x, y) = c. Supongamos que hablamos de la curva de nivel donde g = c. Entonces, en general, las curvas de nivel de f y g serán distintas, y la curva g = c por lo general intersectará y cruzará muchos contornos de f. En general, moviéndose a través de la línea g=c podemos incrementar o disminuir el valor de f. Sólo cuando g=c (el contorno que estamos siguiendo) toca tangencialmente (no corta) una curva de nivel de f, no se incrementa o disminuye el valor de f. Esto ocurre en el extremo local restringido y en los puntos de inflexión restringidos de f.

Un ejemplo familiar puede ser obtenido de los mapas climatológicos, con sus curvas de nivel de presión y temperatura (isóbaras e isotermas respectivamente): el extremo restringido ocurrirá donde los mapas superpuestos muestren curvas que se tocan.

Geométricamente traducimos la condición de tangencia diciendo que los gradientes de f y g son vectores paralelos en el máximo. Introduciendo un nuevo escalar, λ, resolvemos

\nabla

[f(x, y) - λ (g(x, y) − c)] = 0

para λ ≠ 0.

Una vez determinados los valores de λ, volvemos al número original de variables y así continuamos encontrando el extremo de la nueva ecuación no restringida.

F(x,y)=f(x,y)-\lambda (g(x,y)-c)

de forma tradicional. Eso es, $F(x,y)=f(x,y)$ para todo (x, y) satisfaciendo la condición porque $g(x,y)-c$ es igual a cero en la restricción, pero los ceros de $\nabla$ F(x, y) están todos en $g(x,y)=c$ .

El método de los multiplicadores de Lagrange[editar]

Sea f (x) una función definida en un conjunto abierto n-dimensional {x ∈ Rⁿ}. Se definen s restricciones g_k (x) = 0, k=1,..., s, y se observa (si las restricciones son satisfechas) que:

$h(\mathbf {x} ,\mathbf {\lambda } )=f+\sum _{k=1}^{s}\lambda _{k}g_{k}$

Se procede a buscar un extremo para h

{\frac {\partial h}{\partial x_{i}}}=0,

lo que es equivalente a

{\frac {\partial f}{\partial x_{i}}}=-\sum _{k}^{s}\lambda _{k}{\frac {\partial g_{k}}{\partial x_{i}}}.

Demostración
Comencemos con el caso de una restricción. Sea una superficie M contenida en Rⁿ definida por g(x)=0 y sea f(x) la función a obtener su punto crítico. Si p $\in$ M un punto crítico entonces se ha de cumplir: $\nabla f\cdot v=0$ para todo v vector tangente a M en p (es decir, sea cual sea la dirección en la que nos desplacemos en M, el incremento de f a primer orden es nulo) La anterior condición significa que $\nabla f$ es perpendicular al tangente a M en p y dado que dim M=n-1 existe un único vector perpendicular linealmente independiente que viene dado por $\nabla g$ , de modo que se tiene: $\nabla f=\lambda \nabla g$ para algún número $\lambda$ En el caso de que M esté definida por varias restricciones $g_{1},...,g_{k}$ el conjunto de vectores perpendiculares al tangente a M en p viene generado por $\nabla g_{1},\nabla g_{2},...\nabla g_{k}$ de modo que al ser $\nabla f$ perpendicular al vector tangente a M en p este ha de ser de la forma: $\nabla f=\lambda _{1}\nabla g_{1}+\lambda _{2}\nabla g_{2}+...+\lambda _{k}\nabla g_{k}$ para unos ciertos números $\lambda _{1},...,\lambda _{k}$

Los multiplicadores desconocidos λ_k se determinan a partir de las ecuaciones con las restricciones y conjuntamente se obtiene un extremo para h que al mismo tiempo satisface las restricciones (i.e. g_k=0), lo que implica que f ha sido optimizada

El método de multiplicadores de Lagrange es generalizado por las condiciones de Karush-Kuhn-Tucker.

Ejemplos[editar]

Ejemplo 1[editar]

Supongamos que queremos encontrar la distribución probabilística discreta con máxima entropía. Entonces

f(p_{1},p_{2},\ldots ,p_{n})=-\sum _{k=1}^{n}p_{k}\log _{2}p_{k}.

g(p_{1},p_{2},\ldots ,p_{n})=\sum _{k=1}^{n}p_{k}=1.

Podemos usar los multiplicadores de Lagrange para encontrar el punto de máxima entropía (dependiendo de las probabilidades). Para todo k desde 1 hasta n, necesitamos

{\frac {\partial }{\partial p_{k}}}(f+\lambda (g-1))=0,

lo que nos da

{\frac {\partial }{\partial p_{k}}}\left(-\sum _{k=1}^{n}p_{k}\log _{2}p_{k}+\lambda \sum _{k=1}^{n}p_{k}-\lambda \right)=0.

Derivando estas n ecuaciones, obtenemos

-\left({\frac {1}{\ln 2}}+\log _{2}p_{k}\right)+\lambda =0.

Esto muestra que todo p_i es igual (debido a que depende solamente de λ). Usando la restricción ∑_k p_k = 1, encontramos

p_{k}={\frac {1}{n}}.

Esta (la distribución uniforme discreta) es la distribución con la mayor entropía.

Ejemplo 2[editar]

Determinar los puntos en la esfera $x^{2}+y^{2}+z^{2}=4$ que están más cercanos al punto $(3,1,-1)$

la distancia al punto $(3,1,-1)$ :

$d={\sqrt {(x-3)^{2}+(y-1)^{2}+(z+1)^{2}}}$

para hacer más sencilla la operación se maximiza o minimiza el cuadrado de la distancia:

$d^{2}=f(x,y,z)={(x-3)^{2}+(y-1)^{2}+(z+1)^{2}}$

la restricción: $g(x,y,z)=x^{2}+y^{2}+z^{2}=4$

De acuerdo con el método de los multiplicadores de Lagrange, se resuelven las ecuaciones " $\bigtriangledown f=\lambda \bigtriangledown g$ " y " $g=4$ " y el resultado es:

                          (1)  $2(x-3)=2x\lambda$ 
                          (2)  $2(y-1)=2y\lambda$ 
                          (3)  $2(z+1)=2z\lambda$ 
                          (4)  $x^{2}+y^{2}+z^{2}=4$

la manera más sencilla de resolver estas ecuaciones es dejar x, y, z en función de $\lambda$ y luego sustituimos en la ecuación (4).

En primer lugar se observa que $\lambda$ ≠ 1 porque si $\lambda =1$ obtenemos un resultado absurdo en la ecuación (1). Ahora, de la ecuación (1) obtenemos $x={\frac {3}{1-\lambda }}$

y lo mismo sucede con las ecuaciones (2) y (3):

$y={\frac {1}{1-\lambda }}$

$z=-{\frac {1}{1-\lambda }}$ .

Sustituyendo en la ecuación (4)

$\left({\frac {3}{1-\lambda }}\right)^{2}+\left({\frac {1}{1-\lambda }}\right)^{2}+\left(-{\frac {1}{1-\lambda }}\right)^{2}=4$

se obtiene que $\lambda =1\pm {\frac {\sqrt {11}}{2}}$

y entonces los puntos (x, y, z) son :

$({\frac {6}{\sqrt {11}}},{\frac {2}{\sqrt {11}}},-{\frac {2}{\sqrt {11}}})$ y $(-{\frac {6}{\sqrt {11}}},-{\frac {2}{\sqrt {11}}},{\frac {2}{\sqrt {11}}})$

Uno de ellos es el más lejano (máximo de la función), y se puede observar que el punto más cercano es $({\frac {6}{\sqrt {11}}},{\frac {2}{\sqrt {11}}},-{\frac {2}{\sqrt {11}}})$

Ejemplo 3 (restricciones múltiples)[editar]

$f(x,y,z)=xy+yz$

Restricciones:
$xy=1$

$y^{2}+z^{2}=1$

Aplicar el método: ${\overrightarrow {\nabla }}f=\lambda {\overrightarrow {\nabla }}g+\mu {\overrightarrow {\nabla }}h$

${\overrightarrow {\nabla }}f=(y,z+x,y)$

${\overrightarrow {\nabla }}g=(y,x,0)$

${\overrightarrow {\nabla }}h=(0,2y,2z)$

Entonces:

$y=\lambda y$

$z+x=x\lambda +2\mu y$

$y=2\mu z$

$xy=1$

$y^{2}+z^{2}=1$

$x\neq 0$

$y\neq 0$

$\lambda =1$

$z+x=x+2\mu y$

$z=2\mu y$

$y=4\mu ^{2}y$

$\mu =\pm {\frac {1}{2}}$

$y=\pm z$

$2y^{2}=1$

Por lo tanto, los puntos críticos son:

$(x,y,z)=({\sqrt {2}},{\frac {1}{\sqrt {2}}},{\frac {1}{\sqrt {2}}})$

$(x,y,z)=({\sqrt {2}},{\frac {1}{\sqrt {2}}},{\frac {-1}{\sqrt {2}}})$

$(x,y,z)=(-{\sqrt {2}},{\frac {-1}{\sqrt {2}}},{\frac {1}{\sqrt {2}}})$

$(x,y,z)=(-{\sqrt {2}},{\frac {-1}{\sqrt {2}}},{\frac {-1}{\sqrt {2}}})$

Bastará entonces evaluar la función en esos puntos para determinar que:

$f({\sqrt {2}},{\frac {1}{\sqrt {2}}},{\frac {1}{\sqrt {2}}})=f(-{\sqrt {2}},{\frac {-1}{\sqrt {2}}},{\frac {-1}{\sqrt {2}}})={\frac {3}{2}}$

$f({\sqrt {2}},{\frac {1}{\sqrt {2}}},{\frac {-1}{\sqrt {2}}})=f(-{\sqrt {2}},{\frac {-1}{\sqrt {2}}},{\frac {1}{\sqrt {2}}})={\frac {1}{2}}$

por lo que en ambos puntos $f$ tiene un máximo en $(x,y,z)=(\pm {\sqrt {2}},{\frac {\pm 1}{\sqrt {2}}},{\frac {\pm 1}{\sqrt {2}}})$ y un mínimo en $(x,y,z)=(\pm {\sqrt {2}},{\frac {\pm 1}{\sqrt {2}}},{\frac {\mp 1}{\sqrt {2}}})$ si está restringida de esta manera.

Criterio de la segunda derivada para Extremos con Restricción[editar]

El caso bidimensional[editar]

Como en el caso no restringido en el que usamos la matriz Hessiana y el criterio de Sylvester para determinar la naturaleza de los puntos críticos, en presencia de multiplicadores de Lagrange existe un método análogo para descubrir si un punto crítico v₀ es máximo, mínimo, o punto silla.

Sean f:U⊂ℝ²→ℝ y g:U⊂ℝ²→ℝ dos curvas suaves de clase C². Sea v₀∈U tal que g(v₀)= c y sea S el conjunto de nivel de g con valor c. Asumimos que $\nabla$ g(v₀)≠0 y existe un número real $\lambda$ tal que $\nabla$ f(v₀) = $\lambda \nabla$ g(v₀). Para la función auxiliar h = f - $\lambda$ g tenemos la matriz hessiana limitada:

H={\begin{pmatrix}0&{\frac {-\partial g}{\partial x}}&{\frac {-\partial g}{\partial y}}\\{\frac {-\partial g}{\partial x}}&{\frac {\partial ^{2}h}{\partial x^{2}}}&{\frac {\partial ^{2}h}{\partial y\partial x}}\\{\frac {-\partial g}{\partial y}}&{\frac {\partial ^{2}h}{\partial x\partial y}}&{\frac {\partial ^{2}h}{\partial y^{2}}}\\\end{pmatrix}}

evaluada en v₀

Si |H|>0 entonces v₀ es un máximo local en f limitada a S
Si |H|<0 entonces v₀ es un mínimo local en f limitada a S
Si |H|=0 entonces el criterio no concluye nada

El caso n-dimensional[editar]

Análogamente al caso bidimensional, consideramos el caso n-dimensional, Sea f:U⊂ℝⁿ→ℝ y g:U⊂ℝⁿ→ℝ dos curvas suaves de clase C². Sea v₀∈U tal que g(v₀)= c y sea S elconjunto de nivel de g con valor c. Asumimos que $\nabla$ g(v₀)≠0 y existe un número real $\lambda$ tal que $\nabla$ f(v₀) = $\lambda \nabla$ g(v₀). Para la función auxiliar h = f - $\lambda$ g construimos la matriz hessiana limitada:

H={\begin{pmatrix}0&{\frac {-\partial g}{\partial x_{1}}}&{\frac {-\partial g}{\partial x_{2}}}&...&{\frac {-\partial g}{\partial x_{n}}}\\{\frac {-\partial g}{\partial x_{1}}}&{\frac {\partial ^{2}h}{\partial (x_{1})^{2}}}&{\frac {\partial ^{2}h}{\partial x_{1}\partial x_{2}}}&...&{\frac {\partial ^{2}h}{\partial x_{1}\partial x_{n}}}\\{\frac {-\partial g}{\partial x_{2}}}&{\frac {\partial ^{2}h}{\partial x_{1}\partial x_{2}}}&{\frac {\partial ^{2}h}{\partial (x_{2})^{2}}}&...&{\frac {\partial ^{2}h}{\partial x_{2}\partial x_{n}}}\\...&...&...&&...\\{\frac {-\partial g}{\partial x_{n}}}&{\frac {\partial ^{2}h}{\partial x_{1}\partial x_{n}}}&{\frac {\partial ^{2}h}{\partial x_{2}\partial x_{n}}}&...&{\frac {\partial ^{2}h}{\partial (x_{n})^{2}}}\\\end{pmatrix}}

evaluada en v₀

Examinamos los determinantes de las submatrices en la diagonal de orden mayor o igual a 3:

Si todos ellos son menores que 0, tenemos un mínimo local en v₀
Si el primer subdeterminante de tamaño 3x3 es mayor que cero, el siguiente (el de 4x4) es menor que cero, y de esa manera los subdeterminantes van alternando su signo, tenemos un máximo local en v₀
Si todos los subdeterminantes son distintos de cero, pero no siguen ninguno de los dos patrones anteriores, tenemos un punto silla en v₀
Si no se da ninguno de los tres casos anteriores, el criterio no concluye nada

Referencias[editar]

↑ Hoffmann, Laurence D.; Bradley, Gerald L.; Rosen, Kenneth H. (2004). Calculus for Business, Economics, and the Social and Life Sciences (8a edición). Nueva York; Londres: McGraw-Hill. pp. 575-588. ISBN 0071217827. |fechaacceso= requiere |url= (ayuda)

Enlaces externos[editar]

Ejemplo de Relajación Lagrangiana (Multiplicadores de Lagrange)
Muchos Ejemplos resueltos y teoría (Español)
Vídeo que explica los multiplicadores de Lagrange con ejemplos.

[1] Applet (Inglés)
Introducción Conceptual (más un acercamiento de la relación multiplicadores de Lagrange y el cálculo de variaciones como se usan en Física) (Inglés)
[2] (tutorial hecho por Dan Klein) (Inglés)
PDF animado, explicación gráfica. (Método de Multiplicadores de Lagrange: Una Versión Animada. José D. Flores, PhD. Professor of Mathematics, The University of South Dakota)

Datos: Q598870
Multimedia: Lagrange multiplier / Q598870

[Hoffmann_et_al_2004-1] Hoffmann, Laurence D.; Bradley, Gerald L.; Rosen, Kenneth H. (2004). Calculus for Business, Economics, and the Social and Life Sciences (8a edición). Nueva York; Londres: McGraw-Hill. pp. 575-588. ISBN 0071217827. |fechaacceso= requiere |url= (ayuda)

[1]