Descomposición en valores singulares

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En álgebra lineal, la descomposición en valores singulares de una matriz real o compleja es una factorización de la misma con muchas aplicaciones en estadística y otras disciplinas.

Definiciones previas[editar]

Dada una matriz real A \in \Re^{m \times n}, los autovalores de la matriz cuadrada, simétrica y semidefinida positiva A^{T} A \in \Re^{n \times n} son siempre reales y mayores o iguales a cero. Teniendo en cuenta el producto interno canónico vemos que:


\left( A^{T}A \right)^{T} = A^{T} \left(A^{T} \right)^{T} = A^{T}A. O sea que es simétrica


(Ax, Ax) = x^{T}A^{T}Ax = ||Ax||^{2} \ge 0, es decir A^{T} A \, es semidefinida positiva, es decir, todos sus autovalores son mayores o iguales a cero.


Si \lambda_{i} \, es el i-ésimo autovalor asociado al i-ésimo autovector, entonces \lambda_{i} \in \Re. Esto es una propiedad de las matrices simétricas. Ver demostración.


Definición[editar]

Sean \lambda_{1} \ge \lambda_{2} \ge \cdots \ge \lambda_{n} \ge 0 los autovalores de la matriz A^{T}A \, ordenados de mayor a menor. Entonces \sigma_{i} = \sqrt{\lambda_{i}} es el i-ésimo Valor Singular de la matriz A^{T}A \,.

Teorema[editar]

Sea A \in \Re^{m \times n} y \lambda_{1} \ge \cdots \ge \lambda_{r} > \lambda_{r+1} = \cdots = \lambda_{n} = 0 los autovalores de A^{T}A \,. Es decir los primeros r \, autovalores no nulos, ordenados de manera decreciente y los n-r \, autovalores nulos.

Sea \big\{ v_{1}, \cdots ,  v_{n} \big\} una base ortonormal de \Re^{n} \, formada por autovectores de A^{T}A \,. Entonces:


  1. \Big\{ Av_{1}, \cdots ,  Av_{r} \Big\} es un conjunto ortogonal y ||Av_{i}|| = \sqrt{\lambda_{i}} = \sigma_{i}
  2. \Bigg\{ \frac{Av_{1}}{\sigma_{1}}, \cdots ,  \frac{Av_{r}}{\sigma_{r}} \Bigg\} es una base ortonormal del subespacio fundamental Col(A) \,.
  3. \Big\{ v_{r+1}, \cdots ,  v_{n} \Big\} es una base ortonormal del subespacio fundamental Nul(A) \,.
  4. rango(A) = r \, es decir, el rango de la matriz A \, coincide con la cantidad de Valores Singulares no nulos.
Demostración[editar]
  1. \left( Av_{i} , Av_{j} \right) = v_{i}^{T}A^{T}Av_{j} = \lambda_{j} \cdot v_{i}^{T}v_{j} = \left\{ \begin{array}{c} \lambda_{j} \quad \mbox{si } i = j \\ 0 \quad \,\, \mbox{si } i \neq j \end{array} \right.. Teniendo en cuenta este resultado ||Av_{i}|| = \sqrt{\left( Av_{i} , Av_{i} \right)} = \sqrt{\lambda_{i}} = \sigma_{i}
  2. Como el conjunto de los vectores v_{i}, \,\, 1 \le i \le r es ortonormal (por lo tanto linealmente independiente), se ve que hacer el producto Av_{i} \, es ni más ni menos que una combinación lineal de las columnas de la matriz; por lo que el espacio generado por estos productos y las columnas de la matriz es el mismo. Por lo tanto, teniendo en cuenta lo demostrado en el punto anterior, \Bigg\{ \frac{Av_{1}}{\sigma_{1}}, \cdots ,  \frac{Av_{r}}{\sigma_{r}} \Bigg\} es una base ortonormal del Col(A) \,
  3. Es claro que si los vectores v_{i}, \,\, r+1 \le i \le n están asociados a autovalores nulos, teniendo en cuenta lo visto en el punto 1 y también sabiendo que Nul(A) = Nul(A^{T}A) \, (demostración en el último punto de esta lista de propiedades) se ve que \Big\{ v_{r+1}, \cdots ,  v_{n} \Big\} es una base ortonormal del Nul(A) \,
  4. Mirando la dimensión del subespacio hallado en el punto 2 de esta demostración, es claro que rango(A) = r \,

Descomposición en Valores Singulares de una matriz[editar]

Una DVS de A \, es una factorización del tipo A = U \Sigma V^{T} \, con U \in \Re^{m \times m}, V \in \Re^{n \times n} ortogonales y \Sigma \in \Re^{m \times n} una matriz formada con los Valores Singulares de A \, en su diagonal principal ordenados de mayor a menor.

Demostración[editar]

Sean \lambda_{1} \ge \cdots \ge \lambda_{r} > \lambda_{r+1} = \cdots = \lambda_{n} = 0 los autovalores de A^{T}A \in \Re^{n \times n} ordenados de esta manera. Sea \big\{ v_{1}, \cdots ,  v_{n} \big\} una base ortonormal de \Re^{n} \, formada por autovectores de A^{T}A \,, cada uno asociados (en orden) a un autovalor.


Recordemos el conjunto ortogonal \Big\{ Av_{1}, \cdots ,  Av_{n} \Big\} . Si llamamos u_{1} = \frac{Av_{1}}{\sigma_{1}}, \cdots , u_{r} = \frac{Av_{r}}{\sigma_{r}}, u_{r+1} = \cdots = u_{m} = 0_{\Re^{m}} vemos que:

  • \big\{ u_{1}, \cdots ,  u_{r} \big\} es un conjunto ortonormal. Entonces, si r < m \, podemos completar con \big\{ u_{r+1}, \cdots ,  u_{m} \big\} hasta formar una base ortonormal de \Re^{m}


  • \left\{ \begin{array}{c} Av_{1} = \sigma_{1} u_{1} \\ \vdots \\ Av_{r} = \sigma_{r} u_{r} \\ Av_{r+1} = 0_{\Re^{m}} \\ \vdots \\ Av_{n} = 0_{\Re^{m}} \end{array} \right.


  • Reescribiendo este último sistema de ecuaciones de manera matricial con las matrices V = [ v_{1} \quad \cdots \quad v_{n} ] \in \Re^{n \times n} ortogonal y


U \Sigma = \underbrace{[ u_{1} \quad \quad \cdots \quad \quad u_{m}]}_{U \in \Re^{m \times m} \; ortogonal} \underbrace{ \left[ \begin{array}{ccccccc} \sigma_{1} & 0 & \cdots & 0 & 0 & \cdots & 0 \\ 0 & \sigma_{2} & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_{r} & 0 & \cdots & 0 \\  
0 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ \end{array} \right]}_{\Sigma \in \Re^{m \times n}} = [ \sigma_{1} u_{1} \quad \cdots \quad \sigma_{r} u_{r} \quad 0 \quad \cdots \quad 0 ]


Claramente AV = U \Sigma \, y, finalmente, como V \, es una matriz ortogonal A = U \Sigma V^{T} \,. Esta es la ecuación de una DVS de A \,.

Viendo esta descomposición, es claro que la matriz A \, puede escribirse como combinación lineal de matrices de rango 1 tal que:


A = \sum_{i=1}^{r} \sigma_{i}u_{i}v_{i}^{T}


Teorema[editar]

Sea A \in \Re^{m \times n}, entonces existe una DVS de A \,

Descomposición en Valores Singulares Reducida (DVS Reducida)[editar]

Este tipo de descomposición resulta de quedarse sólo con los r \, autovectores unitarios asociados a los r \, Valores Singulares no nulos. Las matrices U, \, V, y \, \Sigma entonces son:


U_{r} = [u_{1} \quad \cdots \quad u_{r}]^{T}

V_{r} = [v_{1} \quad \cdots \quad v_{r}]^{T}

\Sigma_{r} = diag[\sigma_{1} \quad \cdots \quad \sigma_{r}]^{T}


A = U_{r} \Sigma_{r} V_{r}^{T}


Observación: \Sigma \, es una matriz diagonal de dimensión r \times r \,


Propiedades[editar]

Las matrices a continuación denotadas con la letra P \,, son de proyección sobre el subespacio indicado. Las matrices denotadas con la letra I \, son las identidades del orden denotado.

  • P_{Col(A)} = U_{r}U_{r}^{T}


  • P_{Nul\left(A^{T} \right)} = I_{m} - U_{r}U_{r}^{T} =  U_{m-r}U_{m-r}^{T}


  • P_{Fil(A)} = V_{r}V_{r}^{T}


  • P_{Nul (A)} = I_{n} - V_{r}V_{r}^{T} = V_{n-r}V_{n-r}^{T}


  • U_{r}^{T}U_{r} = U_{m-r}^{T}U_{m-r} = I_{m}


  • V_{r}^{T}V_{r} = V_{n-r}^{T}V_{n-r} = I_{n}






  • A = U \Sigma V^{T} \Longrightarrow A^{T} = \left( U \Sigma V^{T} \right)^{T} = V \Sigma^{T} U^{T}


  • A^{T}A = V \Sigma^{T} U^{T} U \Sigma V^{T} \Longleftrightarrow A^{T}A = V \Sigma^{T} \Sigma V^{T} \Longleftrightarrow A^{T}A = V_{r} \,\,  diag[ \lambda_1 \quad \cdots \quad \lambda_{r} ]^{T} \,\, V_{r}^{T} Una diagonalización ortogonal de A^{T}A \,


  • Las matrices simétricas A^{T}A \in \Re^{n \times n} \, y AA^{T} \in \Re^{m \times m} \, tienen los mismos autovalores no nulos y, por lo tanto, los Valores Singulares no nulos de la matriz A \, pueden calcularse usando cualquiera de estas 2. Además, todos los vectores del conjunto \big\{u_{1}, \cdots, u_{r} \big\} son autovectores de AA^{T} \in \Re^{m \times m} \, y también, como ya se mencionó, Nul \left( A^{T} \right) = \big\{u_{r+1}, \cdots, u_{m} \big\}. Esto es fácil de ver, teniendo en cuenta que:


\forall \quad 1 \le i \le r \,\, : \quad Av_{i} = \sigma_{i}u_{i} \Longleftrightarrow A \underbrace{A^{T}Av_{i}}_{\lambda_{i} \cdot v_{i}} = \sigma_{i} \cdot AA^{T}u_{i} \Longleftrightarrow \lambda_{i} \cdot Av_{i} = \sigma_{i}^{2} \cdot \underbrace{Av_{i}}_{\sigma_{i}u_{i}} = \sigma_{i} \cdot AA^{T}u_{i} \Longleftrightarrow AA^{T}u_{i} = \sigma_{i}^{2} \cdot u_{i} = \lambda_{i} \cdot u_{i}


Este resultado es útil para facilitar el cálculo de Valores Singulares. Por ejemplo, dada A \in \Re^{2 \times 8} \,, entonces A^{T}A \in \Re^{8 \times 8} \, tiene un polinomio característico de grado 8 y AA^{T} \in \Re^{2 \times 2} \, tiene un polinomio característico de grado 2. Como los autovalores no nulos de ambas matrices coinciden, el calculo de Valores Singulares de A \, se hace más sencillo.

Ejemplo 1[editar]

Si A = \left[ \begin{array}{cc} 0 & 0 \\ 0 & 9 \\ 3 & 0 \end{array} \right], entonces A^{T}A = \left[ \begin{array}{cc} 9 & 0 \\ 0 & 81 \end{array} \right] cuyos autovalores son \lambda_{1} = 81 \quad \wedge \quad \lambda_{2} = 9 asociados a los autovectores v_{1} = [0 \quad 1]^{T} \quad \wedge \quad v_{2} = [1 \quad 0]^{T}. Ya que la matriz es simétrica, estos vectores son ortogonales (ver diagonalización de matrices Hermíticas).

Entonces, los Valores Singulares de A \, son \sigma_{1} = \sqrt{81} = 9 \quad \wedge \quad \sigma_{2} = \sqrt{9} = 3. Observamos que, efectivamente, la cantidad de Valores Singulares no nulos coincide con el rango de la matriz.


Ahora buscamos los vectores \big\{ u_{1}, u_{2} , u_{3} \big\} con u_{i} \in \Re^{3}, que deberán cumplir


\left\{ \begin{array}{c} Av_{1} = \sigma_{1} u_{1} \\ Av_{2} = \sigma_{2} u_{2} \\ Av_{3} = 0_{\Re^{3}} \end{array} \right.


Esto es u_{1} = \frac{Av_{1}}{\sigma_{1}} = \frac{1}{9} [0 \quad 9 \quad 0]^{T} = [0 \quad 1 \quad 0]^{T} y u_{2} = \frac{Av_{2}}{\sigma_{2}} = \frac{1}{3}[0 \quad 0 \quad 3]^{T} = [0 \quad 0 \quad 1]^{T}.


Entonces completamos una base ortonormal de \Re^{3} \, con \Big\{ [0 \quad 1 \quad 0]^{T}, [0 \quad 0 \quad 1]^{T} ,  [1 \quad 0 \quad 0]^{T} \Big\}.


Nuestras matrices ortogonales son:


U = \left[ \begin{array}{ccc} 0 & 0 & 1 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{array} \right] \quad V =  \left[ \begin{array}{cc} 0 & 1 \\ 1 & 0  \end{array} \right]


Y la matriz compuesta por los Valores Singulares ordenados:


\Sigma = \left[ \begin{array}{cc} 9 & 0 \\ 0 & 3 \\ 0 & 0 \end{array} \right]


Por lo tanto la DVS de A \, es:


A = \left[ \begin{array}{ccc} 0 & 0 & 1 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{array} \right] \left[ \begin{array}{cc} 9 & 0 \\ 0 & 3 \\ 0 & 0 \end{array} \right] \left[ \begin{array}{cc} 0 & 1 \\ 1 & 0  \end{array} \right] = 9 \cdot  \left[ \begin{array}{c} 0 \\ 1  \\ 0 \end{array} \right] \cdot [0 \quad 1] \, + \, 3 \cdot  \left[ \begin{array}{c} 0 \\ 0  \\ 1 \end{array} \right] \cdot [1 \quad 0] = \left[ \begin{array}{cc} 0 & 0 \\ 0 & 9 \\ 3 & 0 \end{array} \right].


Y la DVS Reducida es


A = \left[ \begin{array}{cc} 0 & 0 \\ 1 & 0 \\ 0 & 1 \end{array} \right] \left[ \begin{array}{cc} 9 & 0 \\ 0 & 3 \end{array} \right] \left[ \begin{array}{cc} 0 & 1 \\ 1 & 0 \end{array} \right]


Observación: No siempre ocurre que V = V^{T} \, como en este caso.

Ejemplo 2[editar]

Sea B = \left[ \begin{array}{ccc} 0 & 0 & 1 \\ 0 & 0 & 1 \end{array} \right]. Entonces, para hacer más sencillo el proceso, calculamos BB^{T} = \left[ \begin{array}{cc} 1 & 1 \\ 1 & 1 \end{array} \right] que tiene un polinomio característico de grado 2. Los autovalores son \lambda_{1} = 2 \quad \wedge \quad \lambda_{2} = 0 asociados a los autovectores de norma unitaria u_{1} = \frac{1}{\sqrt{2}} \cdot [1 \quad 1]^{T} \quad \wedge \quad u_{2} = \frac{1}{\sqrt{2}} \cdot [-1 \quad 1]^{T}. Nuestro único valor singular no nulo es \sigma_{1} = \sqrt{2}


Observaciones:

  • Es claro que rango(B) = 1 \, coincide con la cantidad de Valores Singulares no nulos de la matriz y además Col(B) = \Bigg\{ \frac{1}{\sqrt{2}} \cdot [1 \quad 1]^{T}  \Bigg\} \,
  • Sabemos que B^{T}B \in \Re^{3 \times 3} \, tiene un polinomio característico de grado 3. Entonces, sus raíces son \lambda_{1} = 2, \,\, \lambda_{2} = \lambda_{3} = 0. Veámoslo:


B^{T}B = \left[ \begin{array}{ccc} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 2 \end{array} \right] \Longrightarrow p \left( \lambda \right) = det \left( B^{T}B - \lambda \cdot I_{3} \right) = -\lambda^{3} + 2 \lambda^{2}


Ahora, sabemos que Bv_{i} = \sigma_{i}u_{i} \Longleftrightarrow B^{T}B v_{i} = \sigma_{i}^{2} v_{i} = \sigma_{i} \cdot B^{T} u_{i}, es decir B^{T}u_{i} = \sigma_{i}v_{i} \Longleftrightarrow v_{i} = \frac{B^{T}u_{i}}{\sigma_{i}}. Entonces, resulta del único Valor singular no nulo: v_{1} = \frac{1}{2} \cdot [0 \quad 0 \quad 2]^{T} = [0 \quad 0 \quad 1]^{T}.


Ahora, completamos una base ortonormal de \Re^{3} \, con \Big\{ [0 \quad 0 \quad 1]^{T}, [1 \quad 0 \quad 0]^{T}, [0 \quad 1 \quad 0]^{T} \Big\}. En este ejemplo, nuestras matrices ortogonales son:


U = \frac{1}{\sqrt{2}} \cdot \left[ \begin{array}{cc} 1 & -1 \\ 1 & 1 \end{array} \right] \quad V =  \left[ \begin{array}{ccc} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 1 & 0 & 0 \end{array} \right]


\Sigma = \left[ \begin{array}{ccc} \sqrt{2} & 0 & 0 \\ 0 & 0 & 0 \end{array} \right]


Y la DVS resulta entonces:


B = \frac{1}{\sqrt{2}} \cdot \left[ \begin{array}{cc} 1 & -1 \\ 1 & 1 \end{array} \right] \left[ \begin{array}{ccc} \sqrt{2} & 0 & 0 \\ 0 & 0 & 0 \end{array} \right] \left[ \begin{array}{ccc} 0 & 0 & 1 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{array} \right] =  \left[ \begin{array}{c} 1 \\ 1 \end{array} \right] \left[ \begin{array}{ccc} 0 & 0 & 1 \end{array} \right] = \left[ \begin{array}{ccc} 0 & 0 & 1 \\ 0 & 0 & 1 \end{array} \right]


Nota: la DVS reducida se muestra en la segunda igualdad de la ecuación anterior.

Véase también[editar]