Adaptación de forma afín

Adaptación de forma afín es una metodología para adaptar iterativamente la forma de los núcleos (kernels) suavizados en un grupo afín de núcleos (kernels) suavizados de la estructura local de una imagen en una vecindad de un punto específico de la imagen. Equivalentemente, adaptación de forma afín puede hacerse deformación iterativa a un parche local de una imagen con transformaciones afines mientras se aplica un filtro rotacional simétrico a los parches deformados de la imagen. Suponiendo que este proceso iterativo converge, el punto fijo resultante será invariante afín. En el área de visión computacional, esta idea ha sido utilizada para definir puntos afines de interés como invariantes operadores así también como métodos para tratar con texturas invariantes afines.

Operadores de puntos de interés afines adaptadas[editar]

Los puntos de interés obtenidos del detector burbujas (blob detector) Laplaciano o del detector de esquinas(Harris Corner Detector) con selección automática, son invariantes a las traslaciones, rotaciones y el escalado uniforme. Las imágenes que constituyen la entrada a un sistema de visión computacional son, sin embargo, susceptibles a la distorsión por perspectiva. Para obtener puntos de interés robustos ante la distorsión por perspectiva, un enfoque natural sería diseñar un detector de características que sea invariante a transformaciones afines.

Curiosamente, la invariancia afín puede ser alcanzada desde la medición de la misma matrix multi-escala del segundo momento $\mu$ como es usada en el operador de Harris dado, extendiendo así el concepto de espacio regular escalado obtenido de la convolución con un núcleo Gaussiano simétricamente rotacional al núcleo afín Gaussiano obtenido por el núcleo Gaussiano por adaptación de forma (Lindeberg 1994 sección 15.3; Lindeberg y Garding 1997). Para una imagen bidimensional $I$ , sea ${\bar {x}}=(x,y)^{T}$ y $\Sigma _{t}$ una matriz positiva de 2×2. Entonces, un núcleo no uniforme Gaussiano puede ser definido como

g({\bar {x}};\Sigma )={\frac {1}{2\pi {\sqrt {\operatorname {det} \Sigma _{t}}}}}e^{-{\bar {x}}\Sigma _{t}^{-1}{\bar {x}}/2}

y data cualquier imagen $I_{L}$ es espacio-scalado Gaussiano es el espacio-escalado de tres parámetros defnido como

L({\bar {x}};\Sigma _{t})=\int _{\bar {xi}}I_{L}(x-\xi )\,g({\bar {\xi }};\Sigma _{t})\,d{\bar {\xi }}.

Luego, introduciendo una transformación afín $\eta =B\xi$ donde $B$ es una matrix de 2×2, y definiendo una imagen transformada $I_{R}$ como

.

I_{L}({\bar {\xi }})=I_{R}({\bar {\eta }})

Entonces, las representación de $L$ y $R$ de $I_{L}$ y $I_{R}$ , respectivamente, están relacionadas acorde a

L({\bar {\xi }},\Sigma _{L})=R({\bar {\eta }},\Sigma _{R})

matrices de forma afín $\Sigma _{L}$ y $\Sigma _{R}$ están relacionadas de acuerdo a

.

\Sigma _{R}=B\Sigma _{L}B^{T}

Sin tener en cuenta los detalles matemáticos, que, desgraciadamente, se convierten en algo técnico si uno apunta a una descripción precisa de lo que está pasando. El mensaje importante es que el espacio-escalado afín Gaussiano es cerrado bajo transformaciones afines.

Si nosotros, dada la notación $\nabla L=(L_{x},L_{y})^{T}$ así como la matriz de forma local $\Sigma _{t}$ y una matriz de forma de integración $\Sigma _{s}$ , Introducimos el adaptado-afín segundo momento multi-scalado de acuerdo a

\mu _{L}({\bar {x}};\Sigma _{t},\Sigma _{s})=g({\bar {x}}-{\bar {\xi }};\Sigma _{s})\,\left(\nabla _{L}({\bar {\xi }};\Sigma _{t})\nabla _{L}^{T}({\bar {\xi }};\Sigma _{t})\right)

se puede demostrar que bajo cualquier transformación afín ${\bar {q}}=B{\bar {p}}$ el adaptado-afín segundo momento multi-scalado se transforma según

.

\mu _{L}({\bar {p}};\Sigma _{t},\Sigma _{s})=B^{T}\mu _{R}(q;B\Sigma _{t}B^{T},B\Sigma _{s}B^{T})B

Una vez más, sin tener en cuenta los detalles técnicos un tanto desordenado, el mensaje importante aquí es la que da una correspondencia entre los puntos de imagen ${\bar {p}}$ y ${\bar {q}}$ , t La transformación afín $B$ puede estimarse a partir de mediciones de los multi-escala matrices segundo momento $\mu _{L}$ y $\mu _{R}$ en los dos dominios.

Una consecuencia importante de este estudio es que si podemos encontrar una transformación afín $B$ (de tal manera que $\mu _{R}$ es una constante que depende del tiempo), entonces se obtiene un punto fijo que es invariante a transformaciones afines (Lindeberg sección 1994 15.4; Lindeberg y Garding 1997). A los efectos de aplicación práctica, a esta propiedad a menudo se puede llegar por cualquiera de dos maneras principales. El primer enfoque se basa en transformaciones de los filtros de suavizado y consta de:

la estimación de la matriz de segundo-momento $\mu$ en el dominio de la imagen,
la determinación de un nuevo núcleo suavizado adaptado con proporcional matriz de covarianza de $\mu ^{-1}$ ,
suavizar la imagen original por el núcleo de suavizado de forma adaptada, y
repitiendo esta operación hasta que la diferencia entre dos sucesivas matrices de segundo momento es suficientemente pequeño.

El segundo enfoque se basa en deformaciones en el dominio de la imagen e implica:

estimar $\mu$ en el dominio de la imagen,
estimar una transformación afín locales proporcional a ${\hat {B}}=\mu ^{1/2}$ donde $\mu ^{1/2}$ denota la matriz raíz cuadrada de $\mu$ ,
deformar la imagen de entrada por la transformación afín ${\hat {B}}^{-1}$ y
repetir esta operación mientras $\mu$ está suficientemente cerca de .la constante

Este proceso general se refiere a la adaptación de forma afín (Lindeberg y Garding 1997; Baumberg 2000; Mikolajczyk y Schmid 2004; Tuytelaars y van Gool 2004; Lindeberg 2008). En el caso continuo ideal, los dos enfoques son matemáticamente equivalentes. En implementaciones prácticas, sin embargo, el primer enfoque basado en filtro suele ser más preciso en la presencia de ruido, mientras que el segundo enfoque basado en la deformación es generalmente más rápido.

En la práctica, el proceso de adaptación de forma afín descrito aquí se combina a menudo con la selección de la escala de detección automática de puntos de interés, como se describe en los artículos sobre reconocimiento de regiones y de detección de la esquinas, para obtener los puntos de interés que no varían con el grupo afín completo, incluyendo los cambios de escala. Además del operador de Harris multi-escala comúnmente utilizado, esta adaptación forma afín también se puede aplicar a otros tipos de operadores de puntos de interés, tales como el Laplaciano / Diferencia del operador blob gaussiano y el determinante de la Hessiana (Lindeberg 2.008). Adaptación de forma afín también se puede utilizar para afín reconocimiento de textura invariante y de la segmentación de textura invariante afín.

Véase también[editar]

Detección de esquina
Blob Detección
Harris Detector de región afín
Hessian Detector de región afín
Espacio de escala
Función gaussiana

Referencias[editar]

A. Baumberg (2000). «Reliable feature matching across widely separated views». Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. pp. pages I:1774--1781.
T. Lindeberg (1994). Scale-Space Theory in Computer Vision. Springer. ISBN 0-7923-9418-6.
T. Lindeberg and J. Garding (1997). «Shape-adapted smoothing in estimation of 3-D depth cues from affine distortions of local 2-D structure». Image and Vision Computing 15 (6): pp 415-434. doi:10.1016/S0262-8856(97)01144-X.
T. Lindeberg (2008). «Scale-space». Encyclopedia of Computer Science and Engineering (Benjamin Wah, ed), John Wiley and Sons IV: 2495-2504. doi:10.1002/9780470050118.ecse609.
K. Mikolajczyk, K. and C. Schmid (2004). «Scale and affine invariant interest point detectors». International Journal of Computer Vision 60 (1): pp 63-86. doi:10.1023/B:VISI.0000027790.02288.f2. «Integration of the multi-scale Harris operator with the methodology for automatic scale selection as well as with affine shape adaptation.»
T. Tuytelaars and L. van Gool K (2004). «Matching Widely Separated Views Based on Affine Invariant Regions». International Journal of Computer Vision 59 (1): pp 63-86. doi:10.1023/B:VISI.0000020671.28016.e8. Archivado desde el original el 12 de junio de 2010.

Datos: Q4688950