Análisis discriminante lineal

Análisis Discriminante Lineal (ADL, o LDA por sus siglas en inglés) es una generalización del discriminante lineal de Fisher, un método utilizado en estadística, reconocimiento de patrones y aprendizaje automático para encontrar una combinación lineal de rasgos que caracterizan o separan dos o más clases de objetos o eventos. La combinación resultante puede ser utilizada como un clasificador lineal, o, más comúnmente, para la reducción de dimensiones antes de la posterior clasificación.

LDA está estrechamente relacionado con el análisis de varianza (ANOVA) y el análisis de regresión, el cual también intenta expresar una variable dependiente como la combinación lineal de otras características o medidas.^[1]^[2] Sin embargo, ANOVA usa variables independientes categóricas y una variable dependiente continua, mientras que el análisis discriminante tiene variables independientes continuas y una variable dependiente categórica (o sea, la etiqueta de clase). La regresión logística y la regresión probit son más parecidas a ADL que ANOVA, pues también explican una variable categórica por los valores de variables independientes continuas. Estos otros métodos son preferibles en aplicaciones donde no es razonable asumir que las variables independientes están normalmente distribuidas, lo cual es una suposición fundamental del método ADL.

ADL está también estrechamente relacionado con el análisis de componente principal (ACP) y el análisis factorial en que ambos buscan combinaciones lineales de variables que explican mejor los datos.^[3] ADL explícitamente intenta modelar la diferencia entre las clases de datos. ACP por otro lado no toma en cuenta cualquier diferencia entre las clases, y el análisis factorial construye las combinaciones de características basadas en las diferencias en vez de las semejanzas. El análisis discriminante es también diferente del análisis factorial en que no es una técnica de independencia: una distinción entre las variables independientes y las variables dependientes (también llamadas variables de criterio) debe estar hecha.

ADL funciona cuando las medidas hechas sobre las variables independientes para cada observación son valores continuos. Al ocuparse de variables independientes categóricas, la técnica equivalente es el análisis discriminante de correspondencia.^[4]^[5]

ADL para dos clases

Considere un conjunto de observaciones ${\vec {x}}$ (también llamadas características, atributos, variables o medidas) para cada muestra de un objeto o evento con clase conocida y. Este conjunto de muestras es conocido como conjunto de formación. El problema de clasificación consiste en encontrar a un buen estimador para la clase y de cualquier ejemplo con la misma distribución (no necesariamente del conjunto de formación) dada solamente una observación ${\vec {x}}$ .^[6]^:338

ADL enfrenta el problema asumiendo que las funciones de densidad de las probabilidades condicionales $p({\vec {x}}|y=0)$ y $p({\vec {x}}|y=1)$ siguen una distribución normal con parámetros de media y covarianza $\left({\vec {\mu }}_{0},\Sigma _{0}\right)$ $\left({\vec {\mu }}_{1},\Sigma _{1}\right)$ , respectivamente. Bajo esta suposición, la solución óptima de Bayes es predecir puntos como en la segunda clase si el registro de las proporciones de probabilidad está debajo de algún umbral T, de tal modo que:

({\vec {x}}-{\vec {\mu }}_{0})^{T}\Sigma _{0}^{-1}({\vec {x}}-{\vec {\mu }}_{0})+\ln |\Sigma _{0}|-({\vec {x}}-{\vec {\mu }}_{1})^{T}\Sigma _{1}^{-1}({\vec {x}}-{\vec {\mu }}_{1})-\ln |\Sigma _{1}|\ >\ T

Más allá de cualquier suposición el clasificador resultante es referido como análisis discriminante cuadrático (ADC).

ADL en lugar de eso hace la suposición simplificadora adicional de homocedasticidad (las covarianzas de las clase son idénticas, con $\Sigma _{0}=\Sigma _{1}=\Sigma$ ) y que las covarianzas tengan rango completo. En este caso, varios términos se cancelan:

{\vec {x}}^{T}\Sigma _{0}^{-1}{\vec {x}}={\vec {x}}^{T}\Sigma _{1}^{-1}{\vec {x}}

{\vec {x}}^{T}{\Sigma _{i}}^{-1}{\vec {\mu _{i}}}={\vec {\mu _{i}}}^{T}{\Sigma _{i}}^{-1}{\vec {x}}

pues

\Sigma _{i}

es Hermitiano

y el anteriormente citado criterio de decisión se convierte en un umbral en el producto dot

{\vec {w}}\cdot {\vec {x}}>c

para alguna constante de umbral c, donde

{\vec {w}}=\Sigma ^{-1}({\vec {\mu }}_{1}-{\vec {\mu }}_{0})

c={\frac {1}{2}}(T-{\vec {\mu _{0}}}^{T}\Sigma _{0}^{-1}{\vec {\mu _{0}}}+{\vec {\mu _{1}}}^{T}\Sigma _{1}^{-1}{\vec {\mu _{1}}})

Esto quiere decir que el criterio de la entrada ${\vec {x}}$ , siendo y una clase, es puramente una función de esta combinación lineal de las observaciones conocidas.

Esto es frecuentemente útil para ver esta conclusión en términos geométricos: el criterio de una entrada ${\vec {x}}$ en una clase y es puramente una función de proyección de puntos ${\vec {x}}$ en el espacio-multidimensional sobre el vector ${\vec {w}}$ (así, solo se considera su dirección). En otras palabras, la observación forma parte de y, si la correspondiente ${\vec {x}}$ está ubicada en un cierto lado de un hiperplano perpendicular a ${\vec {w}}$ . La localización del plano está definida por el umbral c.

Análisis discriminante canónico para k clases

El análisis discriminante canónico (ADC) busca los ejes (k – 1 coordenadas canónicas, donde k es el número de clases) que mejor separan las categorías. Estas funciones lineales no están correlacionadas y definen, en efecto, un espacio óptimo k – 1 a través del conjunto n-dimensional de datos que mejor separa (las proyecciones en ese espacio) los k grupos. Ver ADL multiclase debajo para más detalles.

Discriminante Lineal de Fisher

Los términos de discriminante lineal de Fisher y ADL son a menudo usados para expresar la misma idea, aunque el artículo original de Fisher realmente describe un discriminante ligeramente diferente, que no hace algunas de las suposiciones de ADL como una distribución normal de las clases o covarianzas iguales entre las clases.^[1]

Suponga que dos clases de observaciones tienen medias ${\vec {\mu }}_{0},{\vec {\mu }}_{1}$ y covarianzas $\Sigma _{0},\Sigma _{1}$ . Entonces, la combinación lineal de características ${\vec {w}}\cdot {\vec {x}}$ , tendrá medias ${\vec {w}}\cdot {\vec {\mu }}_{i}$ y varianzas ${\vec {w}}^{T}\Sigma _{i}{\vec {w}}$ para $i=0,1$ . Fisher definió la separación entre estas dos distribuciones por la proporción de la varianza entre las clases, entre la varianza dentro de las clases:

S={\frac {\sigma _{\text{between}}^{2}}{\sigma _{\text{within}}^{2}}}={\frac {({\vec {w}}\cdot {\vec {\mu }}_{1}-{\vec {w}}\cdot {\vec {\mu }}_{0})^{2}}{{\vec {w}}^{T}\Sigma _{1}{\vec {w}}+{\vec {w}}^{T}\Sigma _{0}{\vec {w}}}}={\frac {({\vec {w}}\cdot ({\vec {\mu }}_{1}-{\vec {\mu }}_{0}))^{2}}{{\vec {w}}^{T}(\Sigma _{0}+\Sigma _{1}){\vec {w}}}}

Esta medida es, en cierto sentido, una medida de la proporción de la señal de ruido para el etiquetado de clases. Puede demostrarse que la separación máxima ocurre cuando

{\vec {w}}\propto (\Sigma _{0}+\Sigma _{1})^{-1}({\vec {\mu }}_{1}-{\vec {\mu }}_{0})

Cuando las suposiciones de ADL son satisfechas, la ecuación citada anteriormente es equivalente a ADL.

Es notable ver que ${\vec {w}}$ es el vector normal al hiperplano discriminante. Como ejemplo, en problemas bidimensionales, la línea que mejor divide los dos grupos es perpendicular a ${\vec {w}}$ .

Generalmente, los puntos de datos que serán discriminados son proyectados sobre ${\vec {w}}$ , entonces el umbral que mejor separa los datos es escogido del análisis de la distribución en una dimensión. No hay regla general para el umbral. Sin embargo, si las proyecciones de puntos de ambas clases exhiben aproximadamente las mismas distribuciones, una buena elección sería el hiperplano entre las proyecciones de las dos medias ${\vec {w}}\cdot {\vec {\mu }}_{0}$ y ${\vec {w}}\cdot {\vec {\mu }}_{1}$ . En este caso el parámetro c en condición del umbral ${\vec {w}}\cdot {\vec {x}}>c$ , puede ser encontrado explícitamente:

.

c={\vec {w}}\cdot {\frac {1}{2}}({\vec {\mu }}_{0}+{\vec {\mu }}_{1})={\frac {1}{2}}{\vec {\mu }}_{1}^{T}\Sigma ^{-1}{\vec {\mu }}_{1}-{\frac {1}{2}}{\vec {\mu }}_{0}^{T}\Sigma ^{-1}{\vec {\mu }}_{0}

El método Otsu está relacionado con el discriminante lineal de Fisher, y se creó para binarizar el histograma de píxeles de una imagen en escala de grises, escogiendo óptimamente el umbral negro/blanco que minimiza la varianza dentro de las clases y maximiza la varianza entre las clases, de la escala de grises asignada a las clases de píxeles blanco y negro.

ADL Multiclase

En el caso donde existen más de dos clases, el análisis utilizado se deriva del discriminante de Fisher, que puede ser extendido para encontrar un subspacio que parezca contener toda la variabilidad de la clase. Esta generalización es debido a C. R. Rao.^[7] Suponga que cada una de las clases C tiene una media $\mu _{i}$ y la misma covarianza $\Sigma$ . Entonces, la dispersión entre la variabilidad de las clases puede ser definida por la covarianza de las medias de las clases

\Sigma _{b}={\frac {1}{C}}\sum _{i=1}^{C}(\mu _{i}-\mu )(\mu _{i}-\mu )^{T}

donde $\mu$ es la media de las medias de las clases. La separación de clases en una dirección ${\vec {w}}$ será dada en este caso por

S={\frac {{\vec {w}}^{T}\Sigma _{b}{\vec {w}}}{{\vec {w}}^{T}\Sigma {\vec {w}}}}

Esto significa que cuando ${\vec {w}}$ es un vector propio de $\Sigma ^{-1}\Sigma _{b}$ , la separación será igual a su correspondiente valor propio.

Si $\Sigma ^{-1}\Sigma _{b}$ es diagonalizable, la variabilidad entre las características estará contenida en el subespacio abarcado por los vectores propios correspondientes a los C – 1 valores propios más grandes (si $\Sigma _{b}$ está en el rango de C – 1 a lo sumo). Estos vectores propios son primordialmente usados en la reducción de características, como en ACP. Los vectores propios correspondientes a los valores propios más pequeños tienden a ser muy sensibles a la elección exacta de los datos de formación, y es usualmente necesario usar regularización como se describe en la siguiente sección.

Si la clasificación es requerida, en lugar de reducir la dimensión, hay un número de técnicas alternativas disponibles. Por ejemplo, las clases pueden estar particionadas, y el discriminante estándar de Fisher o ADL pueden ser usados para clasificar cada partición. Un ejemplo común de esto es "uno contra el resto" donde los puntos de una clase son agrupados, y todos lo demás puestos en otro grupo, y luego se aplica el ADL. Esto dará como resultado C clasificadores, cuyos resultados se combinan. Otro método común es la clasificación por parejas, donde un nuevo clasificador es creado para cada par de clases (dando C(C − 1)/2 clasificadores en total), con los clasificadores individuales combinados para producir una clasificación final.

ADL Incremental

La implementación típica de la técnica ADL requiere que todos los ejemplos estén disponibles por adelantado. Sin embargo, hay situaciones donde el conjunto de datos no está disponible en su totalidad y los datos de entrada son observados como un flujo. En este caso, es conveniente para la extracción de características por ADL, tener la habilidad de actualizar las características computadas por ADL, observando nuevos ejemplos sin correr el algoritmo sobre la totalidad del conjunto de datos. Por ejemplo, en muchas aplicaciones en tiempo real como la robótica móvil o el reconocimiento de caras en línea, es importante actualizar las características extraídas por ADL tan pronto como las observaciones nuevas estén disponibles. Una técnica de extracción que puede actualizar las características de ADL es simplemente observando los nuevos ejemplos. Este es un algoritmo ADL incremental, y su idea ha sido extensamente estudiada en las dos últimas décadas.^[8] Catterjee y Roychowdhury propusieron un algoritmo ADL incremental que se organiza por sí solo para actualizar las características ADL.^[9] En otro trabajo, Demir y Ozmehmet propusieron algoritmos de aprendizaje locales en línea, para actualizar características ADL incrementalmente utilizando la corrección de errores y las reglas de aprendizaje de Hebbian.^[10] Posteriormente Aliyari derivó algoritmos incrementales rápidos para actualizar las características ADL observando los nuevos ejemplos.^[8]

Uso práctico

En la práctica, las medias de las clases y las covarianzas no son conocidas. Estas, sin embargo, pueden ser estimadas por medio del conjunto de formación. Ya sea la estimación de la máxima verosimilitud, o la estimación máxima a posteriori, pueden ser usadas en lugar del valor exacto en las anteriormente citadas ecuaciones. Aunque las estimaciones de la covarianza pueden ser consideradas óptimas en ciertos casos, esto no quiere decir que el discriminante resultante obtenido de sustituir estos valores es óptimo en cualquier caso, aun si la suposición de clases normalmente distribuidas es correcta.

Otra complicación en aplicar ADL y el discriminante de Fisher a los datos reales ocurre cuando el número de medidas de cada ejemplo excede el número de ejemplos en cada clase.^[3] En este caso, las estimaciones de la covarianza no tienen un rango completo, y así no puede ser invertida. Hay un número de formas para lidiar con esto. Una es usar la seudo inversa en lugar de la inversa utilizada en las fórmulas anteriores. Sin embargo, la mejor estabilidad numérica puede ser lograda primeramente proyectando el problema en el subespacio abarcado por $\Sigma _{b}$ .^[11] Otra estrategia para lidiar con un tamaño pequeño de los ejemplos es usar un estimador reducción de la matriz de covarianzas, el cual puede ser expresado matemáticamente como:

\Sigma =(1-\lambda )\Sigma +\lambda I\,

donde $I$ es la matriz identidad, y $\lambda$ es la intensidad de reducción o parámetro de regularización. Esto conduce a un análisis discriminante regularizado o análisis discriminante de reducción o encogimiento.^[12]^[13]

También, en muchos casos prácticos los discriminantes lineales no resultan adecuados. El ADL y el discriminante de Fisher pueden ser extendidos para el uso de la clasificación no lineal, usando el truco del kernel. Aquí, las observaciones originales son mapeadas efectivamente dentro de un espacio dimensional no lineal mayor. La clasificación lineal en este espacio no lineal, es entonces equivalente a la clasificación no lineal en el espacio original. El ejemplo más comúnmente utilizado para esto es el kernel del discriminante de Fisher.

ADL puede ser generalizado para el análisis discriminante múltiple, dónde c se convierte en una variable categórica con N estados posibles, en lugar de solo dos. Análogamente, si las densidades de clases condicionales $p({\vec {x}}|c=i)$ son normales, con covarianzas compartidas, entonces la estadística suficiente para $P(c|{\vec {x}})$ son los valores de las N proyecciones, los cuales están en el subespacio abarcado por las N medias, proyectados por la inversa de la matriz de covarianza. Estas proyecciones pueden ser encontradas solucionando el problema generalizado del valor propio, dónde el numerador es la matriz de covarianzas formada por las medias de los ejemplos, y el denominador es la matriz de covarianzas compartidas.

Aplicaciones

Además de los ejemplos anteriormente dados, ADL es aplicado en posicionamiento y administración de productos.

Predicción de bancarrota

En la predicción de bancarrota, basada en considerar proporciones y otras variables financieras, el análisis discriminante lineal fue el primer método estadístico aplicado sistemáticamente para explicar cuáles empresas entraron en bancarrota vs. supervivencia. A pesar de las limitaciones de ADL de considerar una distribución normal, el modelo de Edward Altman de 1968 es todavía un modelo esencial en aplicaciones prácticas.

Reconocimiento de caras

En el reconocimiento de caras computarizado, cada cara es representada por un gran número de valores de píxeles. El análisis discriminante lineal es primordialmente usado aquí para reducir el número de características a un número más práctico antes de la clasificación. Cada una de las nuevas dimensiones son una combinación lineal de valores de los píxeles, los cuales forman una plantilla. Las combinaciones lineales obtenidas usando el discriminante lineal de Fisher son denominadas ''caras de Fisher'', mientras que aquellas obtenidas usando el análisis de componente principal son denominadas ''caras propias''.

Marketing

En el marketing, el análisis discriminante es usado a menudo para determinar los factores que distinguen tipos diferentes de clientes y/o productos, sobre la base de las encuestas u otras formas de recopilación de datos. La regresión logística u otros métodos son ahora más comúnmente usados. El uso del análisis discriminante en el marketing puede estar descrito por los siguientes pasos:

Formular el problema y recopilar datos — Identificar atributos sobresalientes que los consumidores usan para evaluar productos en esta categoría — Usar técnicas cuantitativas de investigación de marketing (como las encuestas), para coleccionar datos de una muestra de potenciales clientes de acuerdo a su evaluación de los atributos del producto. La etapa de la recolección de datos se hace usualmente por profesionales de investigación del marketing. En las encuestas se les pide a los clientes que evalúen un producto en la escala de 1 a 5(o de 1 a 7, o de 1 a 10) en una gama de atributos escogidos por el investigador. Aproximadamente entre cinco y veinte atributos son escogidos. Se pueden incluir cosas como: facilidad de uso, peso, exactitud, durabilidad, color, precio o el tamaño. Los atributos escogidos dependen del producto en estudio. Se hacen las mismas preguntas sobre todos los productos en el estudio. Los datos para productos múltiples son codificados y entran en un programa estadístico como R, SPSS o SAS. (Este paso es el mismo que en el análisis factorial).
Estimar los Coeficientes de la Función Discriminante y determinar el grado de importancia y validez — Seleccionar el método apropiado de análisis discriminante. El método directo involucra estimar la función de discriminante a fin de que todos los estimadores sean evaluados simultáneamente. En un método paso a paso entran las predicciones secuencialmente. El método de dos grupos debería ser usado cuando la variable dependiente tiene dos categorías o estados. El método discriminante múltiple es usado cuando la variable dependiente tiene tres o más estados categóricos. Se utiliza Wilks’s Lambda para probar su impacto en SPSS o la estadística F en SAS. El método más comúnmente usado para probar la validez, es dividir la muestra en una valoración o muestra de análisis, y una validación o muestra reservada. La muestra de valoración es usada para construir la función discriminante. La muestra de validación se usa para construir una matriz de clasificación que contiene el número de casos correctamente clasificados e incorrectamente clasificados. El porcentaje de casos correctamente clasificados es denominado como proporción de impacto.
Se trazan los resultados en un mapa bidimensional, se definen las dimensiones y se interpretan los resultados. El programa estadístico (o un módulo relacionado) mapeará los resultados. El mapa representará gráficamente cada producto (usualmente en espacios bidimensionales). La distancia entre un producto y otro indica cuán diferentes son. Las dimensiones deben ser etiquetadas por el investigador. Esto requiere un juicio subjetivo y es a menudo un gran reto. Vea mapeado perceptual.

Estudios biomédicos

La aplicación principal del análisis discriminante en medicina es la valoración del estado de severidad en los pacientes y prognosis de los resultados de la enfermedad. Por ejemplo, durante el análisis retrospectivo, los pacientes están divididos en grupos según la severidad de la enfermedad – ligera, moderada y severa. Luego los resultados del análisis clínico y de laboratorio son estudiados para revelar variables que son estadísticamente diferentes en los grupos estudiados. Usando estas variables las funciones discriminantes se construyen, lo cual ayuda a clasificar objetivamente la magnitud de la enfermedad en un futuro paciente en ligera, moderada o severa.

En la biología, principios similares son usados para clasificar y definir grupos de diferentes objetos biológicos, por ejemplo, para definir tipos de fagos de Salmonella enteritidis, basados en el espectro infrarrojo de la transformada de Fourier, para detectar una fuente animal de Escherichia coli, estudiando sus factores de virulencia, etc.^[14]^[15]

Ciencias de la tierra

Este método puede ser utilizado para separar las zonas de alteración. Por ejemplo, cuando datos diferentes de zonas diversas están disponibles, el análisis discriminante puede encontrar un patrón dentro de los datos y clasificarlos eficazmente.^[16]

Véase también

Referencias

↑ ^a ^b Fisher, R. A. (1936).
↑ McLachlan, G. J. (2004).
↑ ^a ^b Martinez, A. M.; Kak, A. C. (2001).
↑ Abdi, H. (2007) "Discriminant correspondence analysis."
↑ Perriere, G.; & Thioulouse, J. (2003).
↑ Venables, W. N.; Ripley, B. D. (2002).
↑ Rao, R. C. (1948).
↑ ^a ^b Aliyari Ghassabeh, Youness; Rudzicz, Frank; Moghaddam, Hamid Abrishami (2015-06-01).
↑ Chatterjee, C.; Roychowdhury, V.P. (1997-05-01).
↑ Demir, G. K.; Ozmehmet, K. (2005-03-01).
↑ Yu, H.; Yang, J. (2001).
↑ Friedman, J. H. (1989).
↑ Ahdesmäki, M.; Strimmer K. (2010) "Feature selection in omics prediction problems using cat scores and false nondiscovery rate control", Annals of Applied Statistics, 4 (1), 503–519.
↑ Preisner O, Guiomar R, Machado J, Menezes JC, Lopes JA.
↑ David DE, Lynne AM, Han J, Foley SL.
↑ Tahmasebi, P., Hezarkhani, A., & Mortazavi, M. (2010).

Datos: Q1228929
Multimedia: Discriminant analysis / Q1228929

[Fisher:1936-1] Fisher, R. A. (1936).

[McLachlan:2004-2] McLachlan, G. J. (2004).

[Martinez:2001-3] Martinez, A. M.; Kak, A. C. (2001).

[Abdi_2007-4] Abdi, H. (2007) "Discriminant correspondence analysis."

[Perriere_2003-5] Perriere, G.; & Thioulouse, J. (2003).

[Venables:2002-6] Venables, W. N.; Ripley, B. D. (2002).

[Rao:1948-7] Rao, R. C. (1948).

[:0-8] Aliyari Ghassabeh, Youness; Rudzicz, Frank; Moghaddam, Hamid Abrishami (2015-06-01).

[:1-9] Chatterjee, C.; Roychowdhury, V.P. (1997-05-01).

[10] Demir, G. K.; Ozmehmet, K. (2005-03-01).

[11] Yu, H.; Yang, J. (2001).

[Friedman:2001-12] Friedman, J. H. (1989).

[13] Ahdesmäki, M.; Strimmer K. (2010) "Feature selection in omics prediction problems using cat scores and false nondiscovery rate control", Annals of Applied Statistics, 4 (1), 503–519.

[14] Preisner O, Guiomar R, Machado J, Menezes JC, Lopes JA.

[15] David DE, Lynne AM, Han J, Foley SL.

[16] Tahmasebi, P., Hezarkhani, A., & Mortazavi, M. (2010).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]