Matriz hessiana

En matemática, la matriz hessiana de un campo escalar $f:\mathbb {R} ^{n}\longrightarrow \mathbb {R}$ es la matriz cuadrada de tamaño $n\times n$ que tiene como entradas las derivadas parciales de segundo orden.

Esta matriz debe su nombre al matemático alemán Ludwig Otto Hesse y fue introducida por James Joseph Sylvester.

Definición[editar]

Sea $f:\mathbb {R} ^{n}\longrightarrow \mathbb {R}$ un campo escalar cuyas derivadas parciales de segundo orden existen.
La matriz Hessiana de $f$ , denotada por ${\text{Hess}}f(x)$ , $H_{f}(x)$ , es una matriz cuadrada $n\times n$ definida como:

${\text{Hess}}f(x)={\begin{pmatrix}\displaystyle {\frac {\partial ^{2}f}{\partial x_{1}^{2}}}(x)&\displaystyle {\frac {\partial ^{2}f}{\partial x_{1}\partial x_{2}}}(x)&\cdots &\displaystyle {\frac {\partial ^{2}f}{\partial x_{1}\partial x_{n}}}(x)\\\displaystyle {\frac {\partial ^{2}f}{\partial x_{2}\partial x_{1}}}(x)&\displaystyle {\frac {\partial ^{2}f}{\partial x_{2}^{2}}}(x)&\cdots &\displaystyle {\frac {\partial ^{2}f}{\partial x_{2}\partial x_{n}}}(x)\\\vdots &\vdots &\ddots &\vdots \\\displaystyle {\frac {\partial ^{2}f}{\partial x_{n}\partial x_{1}}}(x)&\displaystyle {\frac {\partial ^{2}f}{\partial x_{n}\partial x_{2}}}(x)&\cdots &\displaystyle {\frac {\partial ^{2}f}{\partial x_{n}^{2}}}(x)\end{pmatrix}}$

El determinante de la matriz Hessiana es conocido como determinante Hessiano.

Además, se tiene que si $f:\Omega \longrightarrow \mathbb {R}$ con $\Omega \subseteq \mathbb {R} ^{n}$ un conjunto abierto y $f\in {\mathcal {C}}^{2}(\Omega )$ , entonces la matriz hessiana está bien definida, y en virtud del teorema de Clairaut (o teorema de Schwarz), es una matriz simétrica.

Aplicaciones[editar]

Concavidad/Convexidad[editar]

Sea $\Omega \subseteq \mathbb {R} ^{n}$ un conjunto abierto y $f:\Omega \longrightarrow \mathbb {R}$ una función de clase $f\in {\mathcal {C}}^{2}(\Omega )$ :

$f\,$ es convexa si y solo si $\forall x\in \Omega$ , la matriz hessiana ${\text{Hess}}f(x)$ es semidefinida positiva.
Si $\forall x\in \Omega$ $\forall x\in \Omega$ la matriz hessiana ${\text{Hess}}f(x)$ ${\text{Hess}}f(x)$ es positiva-definida, entonces $f$ $f$ es estrictamente convexa.
- Si $f$ es una función convexa, entonces cualquier punto en que todas las derivadas parciales son cero, es un mínimo local.
$f$ es cóncava si y solo si $\forall x\in \Omega$ , la matriz hessiana ${\text{Hess}}f(x)$ es semidefinida negativa.
Si $\forall x\in \Omega$ $\forall x\in \Omega$ la matriz hessiana ${\text{Hess}}f(x)$ ${\text{Hess}}f(x)$ es negativa-definida, entonces $f$ $f$ es estrictamente cóncava.
- Si $f\,$ es una función cóncava, entonces cualquier punto en que todas las derivadas parciales son cero, es un máximo local.

Método para determinar el carácter de los puntos críticos[editar]

Se verá a continuación cómo hallar los puntos críticos (máximos, mínimos y puntos de inflexión -o silla o de ensilladura) de una función $f$ de múltiples variables.

Se igualan las derivadas parciales primeras a cero.
Se resuelven las ecuaciones anteriores y se obtienen las coordenadas de los puntos críticos.
Se construye la matriz hessiana (derivadas segundas parciales).
Se sustituyen los puntos críticos en la matriz hessiana para obtener tantas matrices como puntos críticos tengamos.
Dependiendo del tipo de matriz resultante de evaluar la matriz Hessiana en los diferentes puntos críticos, estos puntos se pueden evaluar mediante el criterio de Sylvester:

Si todos los menores principales son mayores que 0, o sea, |H_i|>0 para $i=1,2,\dots ,n$ $f$ alcanza el mínimo relativo en el punto.
Si los menores principales de índice par son mayores que 0 y los de índice impar son menores que 0, o sea, |H_impar|<0 y |H_par|>0 ∀i=1,...,n ƒ alcanza el máximo relativo en el punto.
Si los menores principales son distintos de 0, es decir, |H_i|≠0 ∀i=1,...,n y no es ninguno de los casos anteriores, es un punto de silla.

Cuando algún |H_i|=0, no se puede determinar nada, por lo que se debe hacer un estudio particular. Para n=2 el criterio se mejora en el sentido de que si |H₁|=0 y |H₂|<0

f

tiene un punto de silla en el punto.

De forma análoga podemos evaluar los extremos relativos de un campo escalar $f:\mathbb {R} ^{n}\to \mathbb {R}$ estudiando los autovalores de su matriz hessiana.

Teorema 9.6 (CALCULUS volumen 2. Tom M.Apostol): "Sea $f$ un campo escalar con derivadas parciales segundas continuas D_ijf en una $n$ -bola B(a), y designemos con $H({\textbf {a}})$ la matriz hessiana en el punto estacionario a. Tenemos entonces:

Si todos los autovalores de $H({\textbf {a}})$ son positivos, $f$ tiene un mínimo relativo en a.
Si todos los autovalores de $H({\textbf {a}})$ son negativos, $f$ tiene un máximo relativo en a.
Si $H({\textbf {a}})$ tiene autovalores positivos y negativos, $f$ tiene un punto de ensilladura en a."

El caso particular en el que la función a evaluar grafica una superficie en $\mathbb {R} ^{3}$ , $z=f(x,y)$ y tiene segundas derivadas continuas, se pueden estudiar los puntos críticos evaluando la matriz hessiana en ellos y luego utilizando el criterio de determinación de extremos. Si $(a,b)$ es un punto crítico de $f$ , ( $f_{x}(a,b)=0$ y $f_{y}(a,b)=0$ ) entonces:

- Si el determinante de la matriz hessiana evaluado en el punto $(a,b)$ es mayor que 0, |H|>0, y $f_{xx}(a,b)<0$ , decimos que $f$ alcanza un máximo relativo en $(a,b)$ .

- Si el determinante de la matriz hessiana evaluado en el punto $(a,b)$ es mayor que 0, |H|>0, y $f_{xx}(a,b)>0$ , decimos que $f$ alcanza un mínimo relativo en $(a,b)$ .

- Si el determinante de la matriz hessiana evaluado en el punto $(a,b)$ es menor que 0, |H|<0, decimos que $f(a,b)$ es un Punto de silla.

- Si el determinante de la matriz hessiana evaluado en el punto $(a,b)$ es igual a 0, |H|=0, el criterio no concluye resultado alguno.

Generalizaciones[editar]

Matriz hessiana orlada[editar]

La matriz hessiana orlada es una variante de la matriz hessiana utilizada en problemas de optimización condicionada.

Dada la función $f:\mathbb {R} ^{n}\longrightarrow \mathbb {R}$ y la condición $g(x)=c$ , la matriz hessiana orlada de la función lagrangiana $\Lambda (x,\lambda )=f(x)+\lambda [g(x)-c]$ asociada al problema de extremos condicionados es:

${\text{Hess}}\Lambda (x,\lambda )={\begin{pmatrix}\displaystyle {\frac {\partial ^{2}\Lambda }{\partial x^{2}}}(x,\lambda )&\displaystyle {\frac {\partial ^{2}\Lambda }{\partial x\partial \lambda }}(x,\lambda )\\\displaystyle {\frac {\partial ^{2}\Lambda }{\partial \lambda \partial x}}(x,\lambda )&\displaystyle {\frac {\partial ^{2}\Lambda }{\partial \lambda ^{2}}}(x,\lambda )\end{pmatrix}}={\begin{pmatrix}\displaystyle {\frac {\partial ^{2}\Lambda }{\partial x_{1}^{2}}}(x,\lambda )&\displaystyle {\frac {\partial ^{2}\Lambda }{\partial x_{1}\partial x_{2}}}(x,\lambda )&\dots &\displaystyle {\frac {\partial ^{2}\Lambda }{\partial x_{1}\partial x_{n}}}(x,\lambda )&\displaystyle {\frac {\partial g}{\partial x_{1}}}(x)\\\displaystyle {\frac {\partial ^{2}\Lambda }{\partial x_{2}\partial x_{1}}}(x,\lambda )&\displaystyle {\frac {\partial ^{2}\Lambda }{\partial x_{2}^{2}}}(x,\lambda )&\dots &\displaystyle {\frac {\partial ^{2}\Lambda }{\partial x_{2}\partial x_{n}}}(x,\lambda )&\displaystyle {\frac {\partial g}{\partial x_{2}}}(x)\\\vdots &\vdots &\ddots &\vdots &\vdots \\\displaystyle {\frac {\partial ^{2}\Lambda }{\partial x_{n}\partial x_{1}}}(x,\lambda )&\displaystyle {\frac {\partial ^{2}\Lambda }{\partial x_{n}\partial x_{2}}}(x,\lambda )&\dots &\displaystyle {\frac {\partial ^{2}\Lambda }{\partial x_{n}^{2}}}(x,\lambda )&\displaystyle {\frac {\partial g}{\partial x_{n}}}(x)\\\displaystyle {\frac {\partial g}{\partial x_{1}}}(x)&\displaystyle {\frac {\partial g}{\partial x_{2}}}(x)&\dots &\displaystyle {\frac {\partial g}{\partial x_{n}}}(x)&0\end{pmatrix}}={\begin{pmatrix}\displaystyle {\frac {\partial ^{2}\Lambda }{\partial x^{2}}}(x,\lambda )&\displaystyle [\nabla g(x)]^{t}\\\displaystyle \nabla g(x)&0\end{pmatrix}}$

Si hay $m$ condiciones, el bloque de ceros en la esquina inferior derecha es de tamaño $m\times m$ y hay $m$ filas y $m$ columnas bordeando por abajo y por la derecha.

El determinante de sus principales menores se utiliza como criterio para determinar si un punto crítico de una función es un mínimo, máximo, punto silla o no determinado (extremos condicionados).^[1]

Aplicación bilineal hessiana[editar]

El concepto de matriz hessiana puede generalizarse a espacios de dimensión infinita, concretamente a aplicaciones definidas sobre espacios vectoriales normados. Si una aplicación (o funcional) está definida es diferenciable en el sentido de Fréchet y su diferencial jacobiana también es diferenciable en el sentido de Fréchet puede definirse una forma bilineal continua (y por tanto acotada) sobre el espacio normado que generaliza la matriz hessiana.

Se dice que una aplicación $f:\Omega \in X\to Y$ entre espacios vectoriales normados $X,Y$ es diferenciable si existe una aplicación lineal continua $L_{a}\in {\mathcal {L}}(X,Y)$ tal que: