Reducción de dimensionalidad

En aprendizaje automático y estadística reducción de dimensionalidad o reducción de la dimensión es el proceso de reducción del número de variables aleatorias que se trate,^[1] y se puede dividir en selección de función y extracción de función.^[2]Los métodos de reducción de dimensionalidad se utilizan habitualmente en métodos matemático-estadísticos de análisis de componentes principales (PCA), análisis de factores (FA) y otros procedimientos de análisis multivariante de datos.

Selección de variable

Artículo principal: Selección de variable

Los distintos enfoques para la selección de variable tratan de encontrar un subconjunto de las variables originales (también llamados características o atributos). Hay tres estrategias; filtro (por ejemplo, ganancia de información) y envoltorio (por ejemplo, búsquedas guiadas por precisión) enfoques, e incrustado (características son seleccionados para añadir o retirar mientras que la construcción del modelo sobre la base de los errores de predicción). Ver también problemas de optimización combinatoria.

En algunos casos, análisis de datos tal como regresión o clasificación se puede hacer en el espacio reducido con más precisión que en el espacio original.

Extracción de características

La extracción de características transforma los datos en la alta dimensión espacio para un espacio de menor dimensión. La transformación de datos puede ser lineal, como en análisis de componentes principales (PCA), pero también existen muchas técnicas de reducción de dimensionalidad no lineal.^[3]^[4] Para los datos multidimensionales, tensoriales la representación puede ser utilizada en la reducción de dimensionalidad a través del aprendizaje de subespacio multilineal.^[5]

La técnica lineal principal para la reducción de dimensionalidad, análisis de componentes principales, realiza un mapeo lineal de los datos a un espacio inferior-dimensional de tal manera que la varianza de los datos en la representación de pocas dimensiones se maximiza. En la práctica, la matriz de correlación de los datos se construye y en esta matriz se calcula los autovectores. Los vectores propios que corresponden a los valores propios más grandes (los componentes principales) se pueden utilizar ahora para reconstruir una gran fracción de la varianza de los datos originales. Por otra parte, los primeros vectores propios a menudo pueden ser interpretados en términos del comportamiento físico a gran escala del sistema. El espacio original (con la dimensión de la cantidad de puntos) se ha reducido (con la pérdida de datos, pero es de esperar que conserva la varianza más importante) al espacio abarcado por un par de vectores propios.

Análisis de componentes principales se puede emplear de una manera no lineal por medio del truco del kernel. La técnica resultante es capaz de construir asignaciones no lineales que maximizan la varianza en los datos. La técnica resultante se titula kernel PCA. Otras técnicas no lineales prominentes incluyen aprendizaje de colector, técnicas como Isomap, incrustadores localmente lineales (LLE), Hesse LLE, automapeo Laplaciano, y espacio tangente local de alineación (CSALP). Estas técnicas construyen una representación de datos de pocas dimensiones utilizando una función de coste que conserva las propiedades locales de los datos, y se puede ver como la definición de un núcleo basado en el gráfico de Kernel PCA. Más recientemente, se han propuesto técnicas que, en lugar de definir un núcleo fijo, tratar de aprender el núcleo usando programación semidefinida. El ejemplo más destacado de una técnica tal es despliegue de varianza máxima (MVU). La idea central de MVU es preservar exactamente todas las distancias por pares entre los vecinos más cercanos (en el espacio del producto interior), al tiempo que maximiza las distancias entre los puntos que no son vecinos más cercanos. Una técnica de reducción de dimensionalidad que se utiliza a veces en neurociencia es las dimensiones informativas al máximo, que encuentra una representación de menor dimensión de un conjunto de datos de tal manera que tanto información mutua como sea posible sobre el original los datos se conserva.

Un enfoque alternativo a la preservación barrio es a través de la minimización de una función de coste que mide las diferencias entre las distancias en los espacios de entrada y de salida. Ejemplos importantes de tales técnicas incluyen: clásica escalamiento multidimensional, que es idéntico al PCA; Isomap, que utiliza distancias geodésicas en el espacio de datos; mapa de difusión, que utilizan distancias de difusión en el espacio de datos; incrustamiento de vecino estocástico t-distribuido (t-SNE), que reduce al mínimo la divergencia entre las distribuciones más pares de puntos; y el análisis de componentes curvilínea.

Un enfoque diferente a la reducción de dimensionalidad no lineal es mediante el uso de autoencoders, un tipo especial de feed-forward red neuronal con una capa oculta de cuello de botella.^[6] La formación de los codificadores de profundidad se lleva a cabo típicamente usando un pre-formación de capa sabia codicioso (por ejemplo, usando una pila de máquina de Boltzmann restringida) que es seguida por una etapa Ajuste fino basado en backpropagation.

Reducción Dimensión

Para conjuntos de datos de alta dimensión (es decir, con número de dimensiones más de 10), reducción de la dimensión se realiza generalmente antes de la aplicación de un K-vecinos más cercanos (k-NN) con el fin de evitar los efectos de la maldición de la dimensionalidad. ^[7]

La extracción de características y la reducción de la dimensión se puede combinar en un solo paso utilizando análisis de componentes principales (PCA), análisis discriminante lineal (LDA), o análisis de la correlación canónica (CCA) técnicas como un paso pre-procesamiento seguido por la agrupación de K-NN en vectores de características en el espacio reducido dimensión. En aprendizaje automático este proceso de pocas dimensiones también se llama incrustar^[8]

Para conjuntos de datos muy altas dimensiones (por ejemplo, cuando se realiza la búsqueda de similitud de secuencias de vídeo en vivo, datos de ADN o de alta dimensión Series de tiempo) ejecutar un rápido 'aproximada' Búsqueda K-NN usando hash sensibles de localidad, "proyecciones aleatorias",^[9] "bocetos"^[10] u otras técnicas de búsqueda de similitud de alta dimensión de la VLDB caja de herramientas podría ser la única opción viable.

Ventajas de la reducción de dimensionalidad

Reduce el espacio de tiempo y almacenamiento requerido.
La eliminación de multicolinealidad mejora el rendimiento del modelo de aprendizaje automático.
Se hace más fácil de visualizar los datos cuando se reduce a dimensiones muy bajas tales como 2D o 3D.

Véase también

Incrustación de vecinos estocásticos distribuidos en t (t-SNE)

Notas

↑ Roweis, Sam T.; Saul, Lawrence K. (1 de diciembre de 2000). «Nonlinear Dimensionality Reduction by Locally Linear Embedding». Science 290: 2323-2326. ISSN 0036-8075. doi:10.1126/science.290.5500.2323. Consultado el 10 de octubre de 2022.
↑ Pudil, Pavel; Novovičová, Jana (1998). Liu, Huan, ed. Novel Methods for Feature Subset Selection with Respect to Problem Knowledge (en inglés). Springer US. pp. 101-116. ISBN 978-1-4615-5725-8. doi:10.1007/978-1-4615-5725-8_7. Consultado el 10 de octubre de 2022.
↑ Samet, H. (2006) Fundamentos de la Multidimensional y Métricas Estructuras de datos. Morgan Kaufmann. ISBN 0-12-369446-9
↑ C. Ding,, X., H. Zha, H.D. Simon, adaptable Dimensión Reducción de clústeres de alta dimensional de datos, Actas de la Conferencia Internacional sobre Minería de Datos, 2002
↑ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). «A Survey of Multilinear Subspace Learning for Tensor Data». Pattern Recognition 44 (7): 1540-1551. doi:10.1016/j.patcog.2011.01.004.
↑ Hongbing Hu, Stephen A. Zahorian, (2010) "dimensionalidad Métodos de reducción para HMM fonético Reconocimiento" Archivado el 27 de febrero de 2013 en Wayback Machine. ICASSP 2010, Dallas, TX
↑ Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "Cuando es" vecino más cercano "significativa? ". Base de datos Teoría-ICDT99 , 217-235
↑ Shaw, B.; Jebara, T. (2009). «Estructura preservar la incrustación». Actas de la 26a Conferencia Anual Internacional sobre Aprendizaje Automático - ICML '09. p. 1. ISBN 9781605585161. doi:10.1145/1553374.1553494.
↑ Bingham, E.; Mannila, H. (2001). «proyección aleatoria en la reducción de dimensionalidad». Actas de la séptima conferencia internacional ACM SIGKDD en el descubrimiento de conocimientos y minería de datos - KDD '01. pp. 245. ISBN 158113391X. doi:10.1145/502.512,502546.
↑ Shasha, D Altos (2004) Descubrimiento de rendimiento en series de tiempo Berlin: Springer. ISBN 0-387-00857-8

Referencias

Fodor,I. (2002) "A survey of dimension reduction techniques". Center for Applied Scientific Computing, Lawrence Livermore National, Technical Report UCRL-ID-148494
Cunningham, P. (2007) "Dimension Reduction" University College Dublin, Technical Report UCD-CSI-2007-7
Zahorian, Stephen A.; Hu, Hongbing (2011). «Nonlinear Dimensionality Reduction Methods for Use with Automatic Speech Recognition». Speech Technologies. ISBN 978-953-307-996-7. doi:10.5772/16863.

Enlaces externos

Datos: Q16000077

[1] Roweis, Sam T.; Saul, Lawrence K. (1 de diciembre de 2000). «Nonlinear Dimensionality Reduction by Locally Linear Embedding». Science 290: 2323-2326. ISSN 0036-8075. doi:10.1126/science.290.5500.2323. Consultado el 10 de octubre de 2022.

[2] Pudil, Pavel; Novovičová, Jana (1998). Liu, Huan, ed. Novel Methods for Feature Subset Selection with Respect to Problem Knowledge (en inglés). Springer US. pp. 101-116. ISBN 978-1-4615-5725-8. doi:10.1007/978-1-4615-5725-8_7. Consultado el 10 de octubre de 2022.

[3] Samet, H. (2006) Fundamentos de la Multidimensional y Métricas Estructuras de datos. Morgan Kaufmann. ISBN 0-12-369446-9

[4] C. Ding,, X., H. Zha, H.D. Simon, adaptable Dimensión Reducción de clústeres de alta dimensional de datos, Actas de la Conferencia Internacional sobre Minería de Datos, 2002

[MSLsurvey-5] Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). «A Survey of Multilinear Subspace Learning for Tensor Data». Pattern Recognition 44 (7): 1540-1551. doi:10.1016/j.patcog.2011.01.004.

[6] Hongbing Hu, Stephen A. Zahorian, (2010) "dimensionalidad Métodos de reducción para HMM fonético Reconocimiento" Archivado el 27 de febrero de 2013 en Wayback Machine. ICASSP 2010, Dallas, TX

[7] Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "Cuando es" vecino más cercano "significativa? ". Base de datos Teoría-ICDT99 , 217-235

[8] Shaw, B.; Jebara, T. (2009). «Estructura preservar la incrustación». Actas de la 26a Conferencia Anual Internacional sobre Aprendizaje Automático - ICML '09. p. 1. ISBN 9781605585161. doi:10.1145/1553374.1553494.

[9] Bingham, E.; Mannila, H. (2001). «proyección aleatoria en la reducción de dimensionalidad». Actas de la séptima conferencia internacional ACM SIGKDD en el descubrimiento de conocimientos y minería de datos - KDD '01. pp. 245. ISBN 158113391X. doi:10.1145/502.512,502546.

[10] Shasha, D Altos (2004) Descubrimiento de rendimiento en series de tiempo Berlin: Springer. ISBN 0-387-00857-8

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]