Aprendizaje por diccionarios dispersos
El aprendizaje por diccionarios dispersos (también conocido como codificación dispersa o SDL) es un método de aprendizaje de representaciones cuyo objetivo es encontrar una representación dispersa de los datos de entrada en forma de combinación lineal de elementos básicos, así como de los propios elementos básicos. Estos elementos se denominan átomos y componen un diccionario. No es necesario que los átomos del diccionario sean ortogonales, y pueden ser un conjunto sobrecompleto. Esta configuración del problema también permite que la dimensionalidad de las señales representadas sea mayor que la de las señales observadas. Las dos propiedades anteriores conducen a tener átomos aparentemente redundantes que permiten múltiples representaciones de la misma señal, pero también proporcionan una mejora en la escasez y la flexibilidad de la representación.
Una de las aplicaciones más importantes del aprendizaje de diccionarios dispersos es el campo de la detección comprimida o la recuperación de señales. En la detección comprimida, una señal de alta dimensión puede recuperarse con sólo unas pocas medidas lineales, siempre que la señal sea dispersa o casi dispersa. Dado que no todas las señales satisfacen esta condición de dispersidad, es muy importante encontrar una representación dispersa de esa señal, como la transformada wavelet o el gradiente direccional de una matriz rasterizada. Una vez que una matriz o un vector de alta dimensión se transfiere a un espacio disperso, se pueden utilizar distintos algoritmos de recuperación, como la búsqueda de bases, CoSaMP[1] o algoritmos rápidos no iterativos,[2] para recuperar la señal.
Uno de los principios clave del aprendizaje por diccionarios es que el diccionario debe inferirse a partir de los datos de entrada. La aparición de métodos de aprendizaje por diccionarios dispersos se vio estimulada por el hecho de que, en el tratamiento de señales, normalmente se desea representar los datos de entrada utilizando el menor número posible de componentes. Antes de este enfoque, la práctica general era utilizar diccionarios predefinidos (como las transformadas de Fourier o wavelet). Sin embargo, en ciertos casos, un diccionario entrenado para ajustarse a los datos de entrada puede mejorar significativamente la dispersión, lo que tiene aplicaciones en la descomposición, compresión y análisis de datos y se ha utilizado en los campos de la eliminación de ruido y clasificación de imágenes, y el procesamiento de vídeo y audio. Los diccionarios sparsity y overcomplete tienen inmensas aplicaciones en compresión de imágenes, fusión de imágenes e inpainting.
Planteamiento del problema
[editar]Dado el conjunto de datos de entrada deseamos encontrar un diccionario y una representación de forma que ambos se minimiza y las representaciones son suficientemente dispersos. Esto puede formularse como el siguiente problema de optimización:
, donde ,
es necesario para restringir para que sus átomos no alcancen valores arbitrariamente altos permitiendo valores arbitrariamente bajos (pero no nulos) de . controla el equilibrio entre la dispersión y el error de minimización.
El problema de minimización anterior no es convexo debido a la norma ℓ0- y resolver este problema es NP-difícil.[3] En algunos casos, se sabe que la norma L1 garantiza la dispersión,[4] por lo que lo anterior se convierte en un problema de optimización convexa con respecto a cada una de las variables y cuando el otro es fijo, pero no es convexo conjuntamente en .
Propiedades del diccionario
[editar]El diccionario definido anteriormente puede ser "incompleto" si o "sobrecompleto" en caso de siendo este último un supuesto típico para un problema de aprendizaje de diccionario disperso. El caso de un diccionario completo no aporta ninguna mejora desde el punto de vista de la representación, por lo que no se tiene en cuenta.
Los diccionarios incompletos representan la situación en la que los datos de entrada reales se encuentran en un espacio de dimensiones inferiores. Este caso está muy relacionado con la reducción de la dimensionalidad y técnicas como el análisis de componentes principales, que requieren átomos sean ortogonales. La elección de estos subespacios es crucial para una reducción eficaz de la dimensionalidad, pero no es trivial. Y la reducción de la dimensionalidad basada en la representación de diccionarios puede ampliarse para abordar tareas específicas como el análisis de datos o la clasificación. Sin embargo, su principal inconveniente es la limitación en la elección de los átomos.
Sin embargo, los diccionarios sobrecompletos no requieren que los átomos sean ortogonales (de todos modos, nunca tendrán una base), lo que permite diccionarios más flexibles y representaciones de datos más ricas.
Un diccionario sobrecompleto que permita una representación dispersa de la señal puede ser una famosa matriz de transformación (transformada wavelets, transformada de Fourier) o puede formularse de forma que sus elementos se modifiquen de tal manera que represente de forma dispersa la señal dada de la mejor manera posible. Los diccionarios aprendidos son capaces de ofrecer soluciones más dispersas que las matrices de transformación predefinidas.
Algoritmos
[editar]Como el problema de optimización descrito anteriormente puede resolverse como un problema convexo con respecto al diccionario o a la codificación dispersa mientras que el otro de los dos es fijo, la mayoría de los algoritmos se basan en la idea de actualizar iterativamente uno y luego el otro.
El problema de encontrar una codificación dispersa óptima con un diccionario determinado se conoce como problema de aproximación dispersa (o a veces simplemente problema de codificación dispersa). Se han desarrollado varios algoritmos para resolverlo (como búsqueda de coincidencia y LASSO) que se incorporan a los algoritmos descritos a continuación.
Método de direcciones óptimas (MOD)
[editar]El método de direcciones óptimas (o MOD)[5] fue uno de los primeros métodos introducidos para abordar el problema del aprendizaje por diccionarios dispersos.[6] La idea central del mismo es resolver el problema de minimización sujeto al número limitado de componentes distintos de cero del vector de representación:
En este caso, denota la norma de Frobenius. MOD alterna entre obtener la codificación dispersa mediante un método como la búsqueda de coincidencias y actualizar el diccionario calculando la solución analítica del problema dado por , donde es un pseudoinverso de Moore-Penrose. Después de esta actualización, se renormaliza para ajustarse a las restricciones y se vuelve a obtener la nueva codificación dispersa. El proceso se repite hasta la convergencia (o hasta un residuo suficientemente pequeño).
MOD ha demostrado ser un método muy eficaz para datos de entrada de baja dimensión ya que sólo requiere unas pocas iteraciones. Sin embargo, debido a la gran complejidad de la operación de inversión de matrices, el cálculo del pseudoinverso en casos de alta dimensionalidad es en muchos casos intratable. Esta deficiencia ha inspirado el desarrollo de otros métodos de aprendizaje de diccionarios.
K-SVD
[editar]K-SVD es un algoritmo que realiza SVD[7] en su núcleo para actualizar los átomos del diccionario uno a uno y básicamente es una generalización de K-means. Obliga a que cada elemento de los datos de entrada se codifica mediante una combinación lineal de no más de elementos de forma idéntica al enfoque MOD:
La esencia de este algoritmo es fijar primero el diccionario, encontrar el mejor bajo la restricción anterior (utilizando búsqueda de coincidencias ortogonales) y luego actualizar iterativamente los átomos del diccionario de la siguiente forma:
Los siguientes pasos del algoritmo incluyen la aproximación de rango 1 de la matriz residual , actualizando e imponiendo la dispersión de después de la actualización. Este algoritmo se considera estándar para el aprendizaje de diccionarios y se utiliza en diversas aplicaciones. Sin embargo, comparte debilidades con MOD al ser eficiente sólo para señales con una dimensionalidad relativamente baja y tener la posibilidad de quedarse atascado en mínimos locales.
Descenso de gradiente estocástico
[editar]También se puede aplicar un método generalizado de descenso de gradiente estocástico con proyección iterativa para resolver este problema.[8] La idea de este método es actualizar el diccionario utilizando el gradiente estocástico de primer orden y proyectarlo sobre el conjunto de restricciones . El paso que se produce en la iteración i-ésima se describe mediante esta expresión:[9]
, donde es un subconjunto aleatorio de y es un paso de gradiente.
Método dual de Lagrange
[editar]Un algoritmo basado en la resolución de un problema lagrangiano dual proporciona una forma eficiente de resolver el diccionario sin complicaciones inducidas por la función de dispersión.[10] Consideremos el siguiente lagrangiano:
, donde es una restricción de la norma de los átomos y son las denominadas variables duales que forman la matriz diagonal .
Podemos entonces proporcionar una expresión analítica para el dual de Lagrange tras la minimización sobre :
Tras aplicar uno de los métodos de optimización al valor del dual (como el método de Newton o el gradiente conjugado) obtenemos el valor de :
Resolver este problema es menos difícil computacionalmente porque la cantidad de variables duales es muchas veces mucho menor que la cantidad de variables del problema primal.
LASSO
[editar]En este enfoque, el problema de optimización se formula como:
, donde es el error permitido en la reconstrucción LASSO.
Se encuentra una estimación de minimizando el error mínimo cuadrático sujeto a una restricción de norma L1 en el vector solución, formulada como:
, donde controla el equilibrio entre la dispersión y el error de reconstrucción. Así se obtiene la solución óptima global.[11]
Métodos de formación paramétrica
[editar]Los métodos de formación paramétrica pretenden incorporar lo mejor de ambos mundos: el ámbito de los diccionarios construidos analíticamente y el de los aprendidos,[12] lo que permite construir diccionarios generalizados más potentes que pueden aplicarse potencialmente a los casos de señales de tamaño arbitrario. Entre los enfoques más destacados se incluyen:
- Diccionarios invariantes de traducción.[13] Estos diccionarios están compuestos por las traducciones de los átomos procedentes del diccionario construido para un parche de señal de tamaño finito. Esto permite que el diccionario resultante proporcione una representación para la señal de tamaño arbitrario.
- Diccionarios multiescala.[14] Este método se centra en la construcción de un diccionario compuesto por diccionarios de diferentes escalas para mejorar la dispersión.
- Diccionarios dispersos.[15] Este método se centra no sólo en proporcionar una representación dispersa, sino también en construir un diccionario disperso que se impone mediante la expresión , donde es un diccionario analítico predefinido con propiedades deseables, como un cálculo rápido y es una matriz dispersa. Esta formulación permite combinar directamente la rápida aplicación de los diccionarios analíticos con la flexibilidad de los enfoques dispersos.
Aprendizaje por diccionarios en línea
[editar]Muchos enfoques comunes para el aprendizaje por diccionarios dispersos se basan en el hecho de que todos los datos de entrada o al menos un conjunto de datos de entrenamiento lo suficientemente grande). Sin embargo, esto puede no ser así en el mundo real, ya que el tamaño de los datos de entrada puede ser demasiado grande para caber en la memoria. El otro caso en el que no se puede hacer esta suposición es cuando los datos de entrada vienen en forma de flujo. Estos casos se encuentran en el campo de estudio del aprendizaje en línea, que esencialmente sugiere actualizar iterativamente el modelo a partir de los nuevos puntos de datos que están disponibles.
Un diccionario puede aprenderse en línea de la siguiente manera:[16]
- Para
- Dibujar una nueva muestra
- Encuentra una codificación dispersa utilizando LARS:
- Actualización del diccionario mediante un enfoque de coordenadas de bloque:
Este método nos permite actualizar gradualmente el diccionario a medida que se dispone de nuevos datos para el aprendizaje de la representación dispersa y ayuda a reducir drásticamente la cantidad de memoria necesaria para almacenar el conjunto de datos (que a menudo tiene un tamaño enorme).
Aplicaciones
[editar]El marco del aprendizaje por diccionario, es decir, la descomposición lineal de una señal de entrada utilizando unos pocos elementos base aprendidos a partir de los propios datos, ha dado lugar a resultados innovadores en diversas tareas de procesamiento de imágenes y vídeo. Esta técnica puede aplicarse a problemas de clasificación de forma que, si hemos construido diccionarios específicos para cada clase, la señal de entrada puede clasificarse encontrando el diccionario correspondiente a la representación más escasa.
También tiene propiedades útiles para la eliminación de ruido de señales, ya que normalmente se puede aprender un diccionario para representar la parte significativa de la señal de entrada de forma dispersa, pero el ruido de entrada tendrá una representación mucho menos dispersa.[17]
El aprendizaje de diccionarios dispersos se ha aplicado con éxito a diversas tareas de procesamiento de imágenes, vídeo y audio, así como a la síntesis de texturas[18] y a la agrupación no supervisada.[19] En evaluaciones con el modelo Bag-of-Words,[20][21] se observó empíricamente que la codificación dispersa superaba a otros enfoques de codificación en las tareas de reconocimiento de categorías de objetos.
El aprendizaje por diccionarios se utiliza para analizar en detalle las señales médicas. Dichas señales médicas incluyen las procedentes de la electroencefalografía (EEG), la electrocardiografía (ECG), la resonancia magnética (RM), la resonancia magnética funcional (RMf), los monitores continuos de glucosa[22] y la tomografía computarizada (USCT), en las que se utilizan distintos supuestos para analizar cada señal.
Véase también
[editar]- Análisis de componentes principales
- Descomposición en valores singulares (K-SVD)
- Factorización de matrices
- Codificación neural
Referencias
[editar]- ↑ Needell, D.; Tropp, J.A. (2009). «"CoSaMP: Iterative signal recovery from incomplete and inaccurate samples"». Applied and Computational Harmonic Analysis. doi:10.1016/j.acha.2008.07.002.
- ↑ Lotfi, M.; Vidyasagar, M. "A Fast Non-iterative Algorithm for Compressive Sensing Using Binary Measurement Matrices.
- ↑ Tillmann, Andreas M. (2015-01). «On the Computational Intractability of Exact and Approximate Dictionary Learning». IEEE Signal Processing Letters 22 (1): 45-49. ISSN 1070-9908. doi:10.1109/LSP.2014.2345761. Consultado el 30 de abril de 2024.
- ↑ Donoho, David L. (2006). «"For most large underdetermined systems of linear equations the minimal 𝓁1-norm solution is also the sparsest solution".». Communications on Pure and Applied Mathematics. ISSN 1097-0312. doi:10.1002/cpa.20132.
- ↑ JA Caballero (2011). «MÉTODOS NUMÉRICOS DE OPTIMIZACIÓN: PROBLEMAS DE OPTIMIZACIÓN SIN RESTRICCIONES». Universidad de La Plata.
- ↑ Engan, K.; Aase, S.O.; Hakon Husoy, J. (1999). «"Method of optimal directions for frame design".». 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. ICASSP99 (Cat. No.99CH36258). ISBN 978-0-7803-5041-0. doi:10.1109/ICASSP.1999.760624.
- ↑ «Descomposicion en Valores singulares(SVD)».
- ↑ Aharon, Michal; Elad, Michael (2008). «"Sparse and Redundant Modeling of Image Content Using an Image-Signature-Dictionary".». SIAM Journal on Imaging Sciences. doi:10.1137/07070156x.
- ↑ «¿Qué es el descenso de gradiente?». IBM.
- ↑ Lee, Honglak, et al. (2006). «"Efficient sparse coding algorithms."». Advances in neural information processing systems.
- ↑ Kumar, Abhay; Kataria, Saurabh. "Dictionary Learning Based Applications in Image Processing using Convex Optimisation".
- ↑ Rubinstein, R.; Bruckstein, A.M.; Elad, M. (2010). «"Dictionaries for Sparse Representation Modeling"». Proceedings of the IEEE. ISSN 0018-9219. doi:10.1109/JPROC.2010.2040551.
- ↑ Engan, Kjersti; Skretting, Karl; Husøy, John H\a akon (2007). «"Family of Iterative LS-based Dictionary Learning Algorithms, ILS-DLA, for Sparse Signal Representation"». Digit. Signal Process. ISSN 1051-2004. doi:10.1016/j.dsp.2006.02.002.
- ↑ Mairal, J.; Sapiro, G.; Elad, M. (2008). «"Learning Multiscale Sparse Representations for Image and Video Restoration".». Multiscale Modeling & Simulation. ISSN 1540-3459. doi:10.1137/070697653.
- ↑ Rubinstein, R.; Zibulevsky, M.; Elad, M. (2010). «"Double Sparsity: Learning Sparse Dictionaries for Sparse Signal Approximation"». IEEE Transactions on Signal Processing. ISSN 1053-587X. doi:10.1109/TSP.2009.2036477.
- ↑ Mairal, Julien; Bach, Francis; Ponce, Jean; Sapiro, Guillermo (1 de marzo de 2010). «Online Learning for Matrix Factorization and Sparse Coding». The Journal of Machine Learning Research 11: 19-60. ISSN 1532-4435. Consultado el 2 de mayo de 2024.
- ↑ Aharon, M, M Elad, and A Bruckstein (2006). «"K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation». Signal Processing, IEEE Transactions on 54.
- ↑ Peyré, Gabriel (2008). «"Sparse Modeling of Textures"». Journal of Mathematical Imaging and Vision. ISSN 0924-9907. doi:10.1007/s10851-008-0120-3.
- ↑ Ramirez, Ignacio; Sprechmann, Pablo; Sapiro, Guillermo (2010). «"Classification and clustering via dictionary learning with structured incoherence and shared features".». 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. ISBN 978-1-4244-6984-0. doi:10.1109/CVPR.2010.5539964.
- ↑ Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian (2013). «"Comparison of mid-level feature coding approaches and pooling strategies in visual concept detection".». Computer Vision and Image Understanding. ISSN 1077-3142. doi:10.1016/j.cviu.2012.10.010.
- ↑ Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (2017). «"Higher-order occurrence pooling for bags-of-words: Visual concept detection"». IEEE Transactions on Pattern Analysis and Machine Intelligence. PMID 27019477. doi:10.1109/TPAMI.2016.2545667.
- ↑ AlMatouq, Ali; LalegKirati, TaousMeriem; Novara, Carlo; Ivana, Rabbone; Vincent, Tyrone (2019). «"Sparse Reconstruction of Glucose Fluxes Using Continuous Glucose Monitors"». IEEE/ACM Transactions on Computational Biology and Bioinformatics. PMID 30892232. doi:10.1109/TCBB.2019.2905198.