Modelo de forma activo

Modelos de Forma Activa (Active Shape Models) son modelos paramétricos deformables donde un modelo estadístico de la variación global de la forma del objeto es generado a partir de un conjunto de entrenamiento consistente en imágenes anotadas. Dicho modelo, conocido como Modelo de Distribución de Puntos (MDP), es utilizado posteriormente para ajustar una plantilla a instancias del objeto no presentes en el conjunto de entrenamiento. La forma del objeto es representada como un conjunto de puntos (controlado por el modelo de la forma). Fue presentado por Tim Cootes y Chris Taylor en 1995.^[1]

Construcción del Modelo de Distribución de Puntos[editar]

La construcción del MDP se puede llevar a cabo usando el Análisis de componentes principales (ACP). La forma es representada como un polígono de n vértices en coordenadas de imagen.

$X=(x_{1},y_{1},...,x_{n-1},y_{n-1},x_{n},y_{n})^{T}$

Para medir la variación de la forma $X$ es transformado a un marco de referencia normalizado con respecto a los parámetros de la pose: $t_{x},t_{y}$ (traslación), $s$ (escala) y $\theta$ (rotación).

$x=T_{t_{x},t_{y},s,\theta }$

La forma media es dada por:

${\bar {x}}={1 \over m}\sum _{i=1}^{m}x_{i}$

y la desviación estándar de cada forma es

${\mathit {d}}x_{i}=x_{i}-{\bar {x}}$

Por tanto se puede estimar la matriz de covariancia como:

$\Sigma ={1 \over m}\sum _{i=1}^{m}{\mathit {d}}x_{i}{\mathit {d}}x_{i}^{T}$

El eje principal de la nube de puntos de $2n$ -dimensional está ahora dado por los vectores propios $p_{i}$ de la matriz de covariancia. Si denotamos $\lambda _{i}$ como el i-ésimo valor propio, se cumple la siguiente identidad:

$\Sigma p_{i}=\lambda _{i}p_{i}$

Entonces se construye la matriz $P$ a partir de los vectores propios ordenados decrecientemente en función de los valores propios correspondientes.

$P=\;{\begin{bmatrix}p_{i}\quad ...\quad p_{2n}\end{bmatrix}}$

Una instancia de la forma puede entonces ser generado mediante la deformación de la forma media por una combinación lineal de vectores propios:

$x={\bar {x}}+Pb$

El espacio de forma de $2n$ -dimensional es entonces generado usando su eje principal, es decir, las dimensiones son ordenadas de acuerdo a su nivel de variación. Esto resulta en una manera muy conveniente de comparar la forma candidata $x'$ con el conjunto de entrenamiento llevando a cabo la transformación ortogonal en el espacio paramétrico $b$ y evaluando la probabilidad de la forma. Una instancia del modelo es entonces definida por el vector $v$ , que consiste en los parámetros de pose y forma.

$v=\left\{t_{x},t_{y},s,\theta ,b\right\}$

Elección de los modos de variación[editar]

El objetivo de la aplicación del Análisis de Componentes Principales (ACP) sobre el conjunto de entrenamiento es reducir el número de parámetros del modelo. De esta forma se reduce la cantidad de dimensiones, generando solo formas similares a las contenidas en el conjunto de entrenamiento. Mediante el ordenamiento en forma descendente de los valores propios de la matriz de covariancia, t modos de variación pueden escogerse para explicar ${\mathit {V}}\times 100\%$ de la variación usando:

$\sum _{i=1}^{\mathit {t}}\lambda _{i}\geq {\mathit {V}}\sum _{i=1}^{2n}\lambda _{i}$

Los restantes 2n-t modos son entonces considerados como ruido. Un valor apropiado para V puede ser 0.98, permitiendo modelar el 98% de la variación de la forma.

Normalización del conjunto de entrenamiento[editar]

Para obtener un marco de referencia normalizado de las formas en el conjunto de entrenamiento, se traslada el centro de gravedad al origen y se escala tal que $|x|=1$ . De esta forma las esquinas del conjunto de rectángulos con distintas relaciones de aspecto forman un círculo de radio 1(véase Figura 2, las formas no normalizadas se muestran en la Figura 1). Debido a la no linealidad, el ACP debe usar dos parámetros para generar el espacio de formas: $\lambda _{1}=99.6\%$ y $\lambda _{2}=0.4\%$ , a pesar de que la variación es solo en un parámetro (la relación de aspecto). Mirando la Figura 2 se comprueba que la forma media superpuesta no coincide con la forma media del conjunto de entrenamiento. Para evitar estas no linealidades en el conjunto normalizado, la forma puede ser transformada al espacio tangente escalando por ${1/x.{\bar {x}}}$ .

Figura 1: Conjunto de entrenamiento de 100 rectángulos no normalizados generados artificialmente con 16 puntos cada uno.

Figura 2: Nube de puntos generada a partir de rectángulos normalizados escalados tal que '"`UNIQ--postMath-0000001C-QINU`"'. La forma media se muestra completamente. — Figura 2: Nube de puntos generada a partir de rectángulos normalizados escalados tal que $|x|=1$ . La forma media se muestra completamente.

La transformación al espacio tangente alinea todos los rectángulos con esquinas sobre líneas rectas (Figura 3) posibilitando el modelado del conjunto de entrenamiento usando solo transformaciones lineales. Nótese como la forma media está contenida en el conjunto de entrenamiento debido a que el ACP ahora usa solo un parámetro, $\lambda _{1}=100\%$ para modelar el cambio en la relación de aspecto. De esta forma la distribución de los parámetros b puede ser compacta reduciendo la no linealidad, lo cual conlleva a modelos mejores y más simples.

Figura 3: Nube de puntos generada a partir de rectángulos normalizados escalados tal que '"`UNIQ--postMath-0000001E-QINU`"', y transformados al espacio tangente. La forma media se muestra completamente. — Figura 3: Nube de puntos generada a partir de rectángulos normalizados escalados tal que $|x|=1$ , y transformados al espacio tangente. La forma media se muestra completamente.

Generación de formas válidas[editar]

En le proceso de hacer coincidir un modelo con una imagen, solo formas válidas comparadas con el conjunto de entrenamiento resultan de interés. Una forma de determinar esto es restringir el espacio de parámetros, b, bajo la asunción de que estos son independientes y respondes a una distribución gaussiana con media cero. Dado que la variancia de la i-ésima componente principal es $\lambda _{i}-y$ el 98% de la distribución de $b_{i}$ se encuentra en el rango $\pm 3\sigma$ las restricciones pueden ser escogidas como:

$-3{\sqrt {\lambda _{i}}}\geq b_{i}\geq 3{\sqrt {\lambda _{i}}}$

Debido a esta sencilla restricción en forma de hipercubo, los parámetros $b_{i}$ pueden tomar valores de $\pm 3/sqrt{\lambda _{i}}$ , lo que no es deseable. Para evitar esto, b puede estar restringido a un hiperelipsoide usando la Distancia de Mahalanobis:

$D_{m}^{2}=\sum {b_{k}^{2} \over \lambda _{k}}\leq D_{max}^{2}$

tal que si $D_{m}<D_{max}$ entonces la forma es válida. Un valor para $D_{max}$ puede ser 3.0.

Si la forma no cumple esta condición, b es escalado al punto más cercano dentro del hiperelipsoide. Esto se ilustra en la Figura 4.

$b=b\cdot D_{max} \over D_{m}$

Si la clase de la forma en cuestión es separada en diferentes subclases entre las cuales no tenemos que discriminar, métodos más complejos han de ser usados para modelar la distribución de los parámetros b. Una opción es aproximarla usando una mezcla de gaussianos. Este enfoque puede ser usado para representar cualquier no linealidad en la variación de la forma presente en el conjunto de entrenamiento y posibilitando la generación de formas válidas de manera mucho más general.

Figura 4: Distancia de Mahalanobis en dos dimensiones. La forma B es válida, la forma A es no es válida, por lo que es escalada a A’.

Referencias[editar]

↑ T.F. Cootes and C.J. Taylor and D.H. Cooper and J. Graham (1995). «Active shape models - their training and application». Computer Vision and Image Understanding (61): 38-59. [1]

Enlaces externos[editar]

Matlab code implementación open-source de ASM.
Description sobre Modelos de Apariencia Activa de la Universidad de Mánchester.
Tim Cootes' página personal (uno de los inventores de los ASMs).
Source code librería "stasm".
ASMlib-OpenCV una implementación open source sobre C++/OpenCV.

Datos: Q267189

[Cootes-1] T.F. Cootes and C.J. Taylor and D.H. Cooper and J. Graham (1995). «Active shape models - their training and application». Computer Vision and Image Understanding (61): 38-59. [1]

[1]