Diferencia entre revisiones de «Reducción de dimensionalidad»

← Ir a diferencia anterior Ir a siguiente diferencia →

Contenido eliminado Contenido añadido

En renglón

Revisión del 16:20 10 oct 2022

En aprendizaje automático y estadística reducción de dimensionalidad o reducción de la dimensión es el proceso de reducción del número de variables aleatorias que se trate,^[1] y se puede dividir en selección de función y extracción de función.^[2]

Selección de variable

Artículo principal: Selección de variable

Los distintos enfoques para la selección de variable tratan de encontrar un subconjunto de las variables originales (también llamados características o atributos). Hay tres estrategias; filtro (por ejemplo, ganancia de información) y envoltorio (por ejemplo, búsquedas guiadas por precisión) enfoques, e incrustado (características son seleccionados para añadir o retirar mientras que la construcción del modelo sobre la base de los errores de predicción). Ver también problemas de optimización combinatoria.

En algunos casos, análisis de datos tal como regresión o clasificación se puede hacer en el espacio reducido con más precisión que en el espacio original.

Extracción de características

La extracción de características transforma los datos en la alta dimensión espacio para un espacio de menor dimensión. La transformación de datos puede ser lineal, como en análisis de componentes principales (PCA), pero también existen muchas técnicas de reducción de dimensionalidad no lineal.^[3]^[4] Para los datos multidimensionales, tensoriales la representación puede ser utilizado en la reducción de dimensionalidad a través del aprendizaje de subespacio multilineal.^[5]

La técnica lineal principal para la reducción de dimensionalidad, análisis de componentes principales, realiza un mapeo lineal de los datos a un espacio inferior-dimensional de tal manera que la varianza de los datos en la representación de pocas dimensiones se maximiza. En la práctica, la matriz de correlación de los datos se construye y en esta matriz se calcula los autovectores. Los vectores propios que corresponden a los valores propios más grandes (los componentes principales) se pueden utilizar ahora para reconstruir una gran fracción de la varianza de los datos originales. Por otra parte, los primeros vectores propios a menudo pueden ser interpretados en términos del comportamiento físico a gran escala del sistema. El espacio original (con la dimensión de la cantidad de puntos) se ha reducido (con la pérdida de datos, pero es de esperar que conserva la varianza más importante) al espacio abarcado por un par de vectores propios.

Análisis de componentes principales se puede emplear de una manera no lineal por medio del truco del kernel. La técnica resultante es capaz de construir asignaciones no lineales que maximizan la varianza en los datos. La técnica resultante se titula kernel PCA. Otras técnicas no lineales prominentes incluyen aprendizaje de colector, técnicas como Isomap, incrustadores localmente lineales (LLE), Hesse LLE, automapeo Laplaciano, y espacio tangente local de alineación (CSALP). Estas técnicas construyen una representación de datos de pocas dimensiones utilizando una función de coste que conserva las propiedades locales de los datos, y se puede ver como la definición de un núcleo basado en el gráfico de Kernel PCA. Más recientemente, se han propuesto técnicas que, en lugar de definir un núcleo fijo, tratar de aprender el núcleo usando programación semidefinida. El ejemplo más destacado de una técnica tal es despliegue de varianza máxima (MVU). La idea central de MVU es preservar exactamente todas las distancias por pares entre los vecinos más cercanos (en el espacio del producto interior), al tiempo que maximiza las distancias entre los puntos que no son vecinos más cercanos. Una técnica de reducción de dimensionalidad que se utiliza a veces en neurociencia es las dimensiones informativas al máximo, que encuentra una representación de menor dimensión de un conjunto de datos de tal manera que tanto información mutua como sea posible sobre el original los datos se conserva.

Un enfoque alternativo a la preservación barrio es a través de la minimización de una función de coste que mide las diferencias entre las distancias en los espacios de entrada y de salida. Ejemplos importantes de tales técnicas incluyen: clásica escalamiento multidimensional, que es idéntico al PCA; Isomap, que utiliza distancias geodésicas en el espacio de datos; mapa de difusión, que utilizan distancias de difusión en el espacio de datos; incrustamiento de vecino estocástico t-distribuido (t-SNE), que reduce al mínimo la divergencia entre las distribuciones más pares de puntos; y el análisis de componentes curvilínea.

Un enfoque diferente a la reducción de dimensionalidad no lineal es mediante el uso de autoencoders, un tipo especial de feed-forward red neuronal con una capa oculta de cuello de botella.^[6] La formación de los codificadores de profundidad se lleva a cabo típicamente usando un pre-formación de capa sabia codicioso (por ejemplo, usando una pila de máquina de Boltzmann restringida) que es seguida por una etapa Ajuste fino basado en backpropagation.

Reducción Dimensión

Para conjuntos de datos de alta dimensión (es decir, con número de dimensiones más de 10), reducción de la dimensión se realiza generalmente antes de la aplicación de un K-vecinos más cercanos (k-NN) con el fin de evitar los efectos de la maldición de la dimensionalidad. ^[7]

La extracción de características y la reducción de la dimensión se puede combinar en un solo paso utilizando análisis de componentes principales (PCA), análisis discriminante lineal (LDA), o análisis de la correlación canónica (CCA) técnicas como un paso pre-procesamiento seguido por la agrupación de K-NN en vectores de características en el espacio reducido dimensión. En aprendizaje automático este proceso de pocas dimensiones también se llama incrustar^[8]

Para conjuntos de datos muy altas dimensiones (por ejemplo, cuando se realiza la búsqueda de similitud de secuencias de vídeo en vivo, datos de ADN o de alta dimensión Series de tiempo) ejecutar un rápido 'aproximada' Búsqueda K-NN usando hash sensibles de localidad, "proyecciones aleatorias",^[9] "bocetos"^[10] u otras técnicas de búsqueda de similitud de alta dimensión de la VLDB caja de herramientas podría ser la única opción viable.

Ventajas de la reducción de dimensionalidad

Reduce el espacio de tiempo y almacenamiento requerido.
La eliminación de multicolinealidad mejora el rendimiento del modelo de aprendizaje automático.
Se hace más fácil de visualizar los datos cuando se reduce a dimensiones muy bajas tales como 2D o 3D.

Notas

↑ Roweis, Sam T.; Saul, Lawrence K. (1 de diciembre de 2000). «Nonlinear Dimensionality Reduction by Locally Linear Embedding». Science 290: 2323-2326. ISSN 0036-8075. doi:10.1126/science.290.5500.2323. Consultado el 10 de octubre de 2022.
↑ Pudil, Pavel; Novovičová, Jana (1998). Liu, Huan, ed. Novel Methods for Feature Subset Selection with Respect to Problem Knowledge (en inglés). Springer US. pp. 101-116. ISBN 978-1-4615-5725-8. doi:10.1007/978-1-4615-5725-8_7. Consultado el 10 de octubre de 2022.
↑ Samet, H. (2006) Fundamentos de la Multidimensional y Métricas Estructuras de datos. Morgan Kaufmann. ISBN 0-12-369446-9
↑ C. Ding,, X., H. Zha, H.D. Simon, adaptable Dimensión Reducción de clústeres de alta dimensional de datos, Actas de la Conferencia Internacional sobre Minería de Datos, 2002
↑ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). «A Survey of Multilinear Subspace Learning for Tensor Data». Pattern Recognition 44 (7): 1540-1551. doi:10.1016/j.patcog.2011.01.004.
↑ Hongbing Hu, Stephen A. Zahorian, (2010) "dimensionalidad Métodos de reducción para HMM fonético Reconocimiento" ICASSP 2010, Dallas, TX
↑ Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "Cuando es" vecino más cercano "significativa? ". Base de datos Teoría-ICDT99 , 217-235
↑ Shaw, B.; Jebara, T. (2009). «Estructura preservar la incrustación». Actas de la 26a Conferencia Anual Internacional sobre Aprendizaje Automático - ICML '09. p. 1. ISBN 9781605585161. doi:10.1145/1553374.1553494.
↑ Bingham, E.; Mannila, H. (2001). «proyección aleatoria en la reducción de dimensionalidad». Actas de la séptima conferencia internacional ACM SIGKDD en el descubrimiento de conocimientos y minería de datos - KDD '01. pp. 245. ISBN 158113391X. doi:10.1145/502.512,502546.
↑ Shasha, D Altos (2004) Descubrimiento de rendimiento en series de tiempo Berlin: Springer. ISBN 0-387-00857-8

Referencias

Fodor,I. (2002) "A survey of dimension reduction techniques". Center for Applied Scientific Computing, Lawrence Livermore National, Technical Report UCRL-ID-148494
Cunningham, P. (2007) "Dimension Reduction" University College Dublin, Technical Report UCD-CSI-2007-7
Zahorian, Stephen A.; Hu, Hongbing (2011). «Nonlinear Dimensionality Reduction Methods for Use with Automatic Speech Recognition». Speech Technologies. ISBN 978-953-307-996-7. doi:10.5772/16863.

Enlaces externos

Datos: Q16000077

[1] Roweis, Sam T.; Saul, Lawrence K. (1 de diciembre de 2000). «Nonlinear Dimensionality Reduction by Locally Linear Embedding». Science 290: 2323-2326. ISSN 0036-8075. doi:10.1126/science.290.5500.2323. Consultado el 10 de octubre de 2022.

[2] Pudil, Pavel; Novovičová, Jana (1998). Liu, Huan, ed. Novel Methods for Feature Subset Selection with Respect to Problem Knowledge (en inglés). Springer US. pp. 101-116. ISBN 978-1-4615-5725-8. doi:10.1007/978-1-4615-5725-8_7. Consultado el 10 de octubre de 2022.

[3] Samet, H. (2006) Fundamentos de la Multidimensional y Métricas Estructuras de datos. Morgan Kaufmann. ISBN 0-12-369446-9

[4] C. Ding,, X., H. Zha, H.D. Simon, adaptable Dimensión Reducción de clústeres de alta dimensional de datos, Actas de la Conferencia Internacional sobre Minería de Datos, 2002

[MSLsurvey-5] Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). «A Survey of Multilinear Subspace Learning for Tensor Data». Pattern Recognition 44 (7): 1540-1551. doi:10.1016/j.patcog.2011.01.004.

[6] Hongbing Hu, Stephen A. Zahorian, (2010) "dimensionalidad Métodos de reducción para HMM fonético Reconocimiento" ICASSP 2010, Dallas, TX

[7] Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) "Cuando es" vecino más cercano "significativa? ". Base de datos Teoría-ICDT99 , 217-235

[8] Shaw, B.; Jebara, T. (2009). «Estructura preservar la incrustación». Actas de la 26a Conferencia Anual Internacional sobre Aprendizaje Automático - ICML '09. p. 1. ISBN 9781605585161. doi:10.1145/1553374.1553494.

[9] Bingham, E.; Mannila, H. (2001). «proyección aleatoria en la reducción de dimensionalidad». Actas de la séptima conferencia internacional ACM SIGKDD en el descubrimiento de conocimientos y minería de datos - KDD '01. pp. 245. ISBN 158113391X. doi:10.1145/502.512,502546.

[10] Shasha, D Altos (2004) Descubrimiento de rendimiento en series de tiempo Berlin: Springer. ISBN 0-387-00857-8

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

@@ Línea 1: / Línea 1: @@
-En [[aprendizaje automático]] y [[estadística]] '''reducción de dimensionalidad''' o '''reducción de la dimensión''' es el proceso de reducción del número de variables aleatorias que se trate,<ref> {{Cite Diario | last1 = Roweis | first1 = S. T. | ultimo2 = Saúl | primero2 = L. K. | title = no lineal dimensionalidad Reducción por localmente lineal incrustación | doi = 10.1126 / science.290.5500.2323 | journal = Ciencia | volumen = 290 | tema = 5500 | pages = 2323-2326 | año = 2000 | PMID = 11125150 | pmc =}} </ref> y se puede dividir en selección de función y extracción de función.<ref> {{Cita libro. | apellido1 = Pudil | nombre1 = P. | apellido2 = Novovicová | nombre2 = J. | -editor1 primero = Huan | editor1 último = Liu | -editor2 primero = Hiroshi | editor2 último = Motoda | doi = 10.1007/978-1-4615-5725-8_7 | capítulo = Nuevos métodos para la Feature subconjunto de selección con respecto al problema del conocimiento | título = extracción de características, Construcción y selección | páginas = 101 | año = 1998 | isbn = 978-1-4613-7622-4 | pmid = | pmc =}} </ref>
+En [[aprendizaje automático]] y [[estadística]] '''reducción de dimensionalidad''' o '''reducción de la dimensión''' es el proceso de reducción del número de variables aleatorias que se trate,<ref>{{Cita publicación|url=https://ui.adsabs.harvard.edu/abs/2000Sci...290.2323R|título=Nonlinear Dimensionality Reduction by Locally Linear Embedding|apellidos=Roweis|nombre=Sam T.|apellidos2=Saul|nombre2=Lawrence K.|fecha=2000-12-01|publicación=Science|volumen=290|páginas=2323–2326|fechaacceso=2022-10-10|issn=0036-8075|doi=10.1126/science.290.5500.2323}}</ref> y se puede dividir en selección de función y extracción de función.<ref>{{Cita libro|título=Novel Methods for Feature Subset Selection with Respect to Problem Knowledge|url=https://doi.org/10.1007/978-1-4615-5725-8_7|editorial=Springer US|fecha=1998|fechaacceso=2022-10-10|isbn=978-1-4615-5725-8|páginas=101–116|doi=10.1007/978-1-4615-5725-8_7|idioma=en|nombre=Pavel|apellidos=Pudil|nombre2=Jana|apellidos2=Novovičová|nombre-editor=Huan|apellido-editor=Liu}}</ref>
 == Selección de variable ==
@@ Línea 9: / Línea 9: @@
 == Extracción de características ==
-{{main | Extracción de características}}
 La extracción de características transforma los datos en la alta dimensión [[espacio]] para un espacio de menor [[dimensión]]. La transformación de datos puede ser lineal, como en [[análisis de componentes principales]] (PCA), pero también existen muchas técnicas de reducción de dimensionalidad no lineal.<ref>Samet, H. (2006) ''Fundamentos de la Multidimensional y Métricas Estructuras de datos''. Morgan Kaufmann. ISBN 0-12-369446-9 </ref><ref> C. Ding,, X., H. Zha, H.D. Simon, adaptable Dimensión Reducción de clústeres de alta dimensional de datos, Actas de la Conferencia Internacional sobre Minería de Datos, 2002 </ref> Para los datos multidimensionales, [[ Cálculo tensorial|tensoriales]] la representación puede ser utilizado en la reducción de dimensionalidad a través del aprendizaje de subespacio multilineal.<ref name="MSLsurvey">{{cita publicación
@@ Línea 34: / Línea 33: @@
 <ref> Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) [http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.31.1422 "Cuando es" vecino más cercano "significativa? "]. '' Base de datos Teoría-ICDT99 '', 217-235 </ref>
-La extracción de características y la reducción de la dimensión se puede combinar en un solo paso utilizando [[análisis de componentes principales]] (PCA), [[análisis discriminante lineal]] (LDA), o [[análisis de la correlación canónica]] (CCA) técnicas como un paso pre-procesamiento seguido por la agrupación de K-NN en vectores de características en el espacio reducido dimensión. En [[aprendizaje automático]] este proceso de pocas dimensiones también se llama [[Encaje (matemática)|incrustar]]<ref> {{Cita libro. | apellido1 = Shaw | nombre1 = B. | apellido2 = Jebara | nombre2 = T. | doi = 10.1145/1553374.1553494 | capítulo = Estructura preservar la incrustación | título = Actas de la 26a Conferencia Anual Internacional sobre Aprendizaje Automático - ICML '09 | páginas = 1 | año = 2009 | isbn = 9781605585161 | url = http://www.cs.columbia.edu/~jebara/papers/spe-icml09.pdf | pmid = | pmc =}} </ref>
+La extracción de características y la reducción de la dimensión se puede combinar en un solo paso utilizando [[análisis de componentes principales]] (PCA), [[análisis discriminante lineal]] (LDA), o [[análisis de la correlación canónica]] (CCA) técnicas como un paso pre-procesamiento seguido por la agrupación de K-NN en vectores de características en el espacio reducido dimensión. En [[aprendizaje automático]] este proceso de pocas dimensiones también se llama [[Encaje (matemática)|incrustar]]<ref> {{cita libro| apellido1 = Shaw | nombre1 = B. | apellido2 = Jebara | nombre2 = T. | doi = 10.1145/1553374.1553494 | capítulo = Estructura preservar la incrustación | título = Actas de la 26a Conferencia Anual Internacional sobre Aprendizaje Automático - ICML '09 | páginas = 1 | año = 2009 | isbn = 9781605585161 | url = http://www.cs.columbia.edu/~jebara/papers/spe-icml09.pdf | pmid = | pmc =}} </ref>
-Para conjuntos de datos muy altas dimensiones (por ejemplo, cuando se realiza la búsqueda de similitud de secuencias de vídeo en vivo, datos de ADN o de alta dimensión [[Series de tiempo]]) ejecutar un rápido '' 'aproximada' '' Búsqueda K-NN usando hash sensibles de localidad, "proyecciones aleatorias",<ref> {{Cita libro | apellido1 = Bingham | nombre1 = E. | apellido2 = Mannila | nombre2 = H. | doi = 10.1145/502.512,502546 | capítulo = proyección aleatoria en la reducción de dimensionalidad | título = Actas de la séptima conferencia internacional ACM SIGKDD en el descubrimiento de conocimientos y minería de datos - KDD '01 | url = https://archive.org/details/kdd2001proceedin0000inte | páginas = [https://archive.org/details/kdd2001proceedin0000inte/page/245 245] | año = 2001 | isbn = 158113391X | pmid = | pmc =}} </ref> "bocetos"<ref>Shasha, D Altos (2004) '' Descubrimiento de rendimiento en series de tiempo '' Berlin: Springer. ISBN 0-387-00857-8 </ref> u otras técnicas de búsqueda de similitud de alta dimensión de la VLDB caja de herramientas podría ser la única opción viable.
+Para conjuntos de datos muy altas dimensiones (por ejemplo, cuando se realiza la búsqueda de similitud de secuencias de vídeo en vivo, datos de ADN o de alta dimensión [[Series de tiempo]]) ejecutar un rápido '' 'aproximada' '' Búsqueda K-NN usando hash sensibles de localidad, "proyecciones aleatorias",<ref>{{cita libro| apellido1 = Bingham | nombre1 = E. | apellido2 = Mannila | nombre2 = H. | doi = 10.1145/502.512,502546 | capítulo = proyección aleatoria en la reducción de dimensionalidad | título = Actas de la séptima conferencia internacional ACM SIGKDD en el descubrimiento de conocimientos y minería de datos - KDD '01 | url = https://archive.org/details/kdd2001proceedin0000inte | páginas = [https://archive.org/details/kdd2001proceedin0000inte/page/245 245] | año = 2001 | isbn = 158113391X | pmid = | pmc =}} </ref> "bocetos"<ref>Shasha, D Altos (2004) '' Descubrimiento de rendimiento en series de tiempo '' Berlin: Springer. ISBN 0-387-00857-8 </ref> u otras técnicas de búsqueda de similitud de alta dimensión de la VLDB caja de herramientas podría ser la única opción viable.
 == Ventajas de la reducción de dimensionalidad ==
@@ Línea 42: / Línea 41: @@
 # La eliminación de multicolinealidad mejora el rendimiento del modelo de aprendizaje automático.
 # Se hace más fácil de visualizar los datos cuando se reduce a dimensiones muy bajas tales como 2D o 3D.
-== Véase también ==
-* [[Estadísticas]]
-* [[Aprendizaje automático]]
-* [[K-vecinos más cercanos]]
-* [[Optimización combinatoria]]
-* [[Análisis de datos]]
-* [[Análisis de la regresión]]
-* [[Espacio]]
-* [[Dimensión]]
-* [[Análisis de componentes principales]]
-* [[Cálculo tensorial]]
-* [[Correlación]]
-* [[Vector propio y valor propio]]
-* [[Escalamiento multidimensional]]
-* [[Red neuronal artificial]]
-* [[Propagación hacia atrás]]
-* [[Maldición de la dimensión]]
-* [[Análisis de componentes principales]]
-* [[Análisis discriminante lineal]]
-* [[Análisis de la correlación canónica]]
-* [[Encaje (matemática)]]
-* [[Series de tiempo]]
 == Notas ==