Correlación de la distancia

De Wikipedia, la enciclopedia libre
Diversos conjuntos puntos (xy), con el coeficiente de la distancia de correlación de x e y para cada conjunto. Compárese con el gráfico sobre correlación

En estadística y en teoría de la probabilidad, la correlación de la distancia o covarianza de la distancia es una medida de dependencia entre dos vectores aleatorios emparejados, de dimensión arbitraria y no necesariamente igual. El coeficiente de correlación de la distancia poblacional es cero si y solo si los vectores aleatorios son independientes. Por lo tanto, la correlación de la distancia mide tanto la asociación lineal como la no lineal entre dos variables aleatorias o vectores aleatorios. Esto contrasta con el coeficiente de correlación de Pearson, que solo puede detectar una asociación lineal entre dos variables aleatorias.

La correlación de la distancia se puede utilizar para realizar una prueba estadística de dependencia con un remuestreo. En un primer paso se calcula la correlación de la distancia (que implica el recentrado de las matrices de la distancia euclidianas) entre dos vectores aleatorios, y luego se compara este valor con las correlaciones de la distancia de muchos cruces de datos.

Trasfondo[editar]

La medida clásica de dependencia, el coeficiente de correlación de Pearson,[1]​ es principalmente sensible a una relación lineal entre dos variables. La correlación de la distancia fue introducida en 2005 por Gábor J. Székely en varias conferencias para tratar esta deficiencia de la correlación de Pearson, a saber, que puede ser fácilmente cero para variables dependientes. La correlación = 0 (no correlacionada) no implica independencia, mientras que la correlación de la distancia = 0 implica independencia. Los primeros resultados sobre la correlación de la distancia se publicaron en 2007 y 2009.[2][3]​ Se demostró que la covarianza de la distancia es la misma que la covarianza browniana.[3]​ Estas medidas son ejemplos de distancias de la energía.

La correlación de la distancia se deriva de un conjunto de otras cantidades que se utilizan en su especificación, concretamente: la varianza de la distancia, la desviación estándar de la distancia, y la covarianza de la distancia. Estas cantidades tienen los mismos roles que los momentos ordinarios, con los nombres correspondientes en la especificación del coeficiente de correlación de Pearson.

Definiciones[editar]

Covarianza de la distancia[editar]

Se define primero la covarianza de la distancia de la muestra. Sea (XkYk), k = 1, 2, ..., n una muestra estadística de un par de valores reales o variables aleatorias con valores vectoriales (XY). Primero, se calculan las matrices de distancias (de orden nxn) (aj, k) y (bj, k) que contienen todas las distancias por pares

donde ||⋅|| denota la norma vectorial. Luego, se toman todas las distancias doblemente centradas

donde es la media de la fila j-ésima, es la media de la columna k-ésima, y es la gran media de la matriz de la distancia de la muestra X. La notación es similar para los valores de b. En las matrices de la distancias centradas ( Aj, k) y ( Bj,k), todas las filas y todas las columnas se suman cero. La covarianza de la distancia de la muestra al cuadrado (un escalar) es simplemente el promedio aritmético de los productos Aj, kBj, k:

El estadístico Tn = n dCov2n (X, Y) determina una prueba multivariable consistente de independencia de vectores aleatorios en dimensiones arbitrarias. Para un ejemplo, véase la función dcov.test en el paquete informático energy escrito en lenguaje R.[4]

El valor poblacional de la covarianza de la distancia puede definirse en la misma línea. Sea X una variable aleatoria que toma valores en un espacio euclidiano dimensional p con una distribución de probabilidad μ y sea Y una variable aleatoria que toma valores en un espacio euclidiano de dimensión q con distribución de probabilidad ν, y supóngase que X e Y tienen expectativas finitas. Escribiendo

Finalmente, se define el valor poblacional de la covarianza de la distancia al cuadrado de X e Y como

Se puede demostrar que esto es equivalente a la siguiente definición:

donde E denota el valor esperado, y y son independientes e idénticamente distribuidas. Las variables aleatorias imprimadas y denotan copias independientes e idénticas, distribuidas de las variables e , y son igualmente independientes e idénticas.[5]​ La covarianza de la distancia se puede expresar en términos de la covarianza de Pearson clásica, cov, como sigue:

Esta identidad muestra que la covarianza de la distancia no es lo mismo que la covarianza de las distancias, cov(||XX' ||, ||YY' ||), que puede ser cero incluso si X e Y no son independientes.

Alternativamente, la covarianza de la distancia se puede definir como la norma L2 ponderada de la distancia entre la función característica conjunta de las variables aleatorias y el producto de sus funciones características marginales:[6]

donde , y son las funciones características de (X, Y), X, e Y, respectivamente; p, q denotan la dimensión euclidiana de X e Y, y por lo tanto de s y t, y cp, cq son constantes. La función de ponderación se elige para producir una medida equivalente a la escala e invariante respecto a la rotación que no se anula para las variables dependientes.[6][7]​ Una interpretación de la definición de la función característica es que las variables eisX y eitY son representaciones cíclicas de X e Y con diferentes períodos dados por s y t, y la expresión ϕX, Y(s, t) − ϕX(s) ϕY(t) en el numerador de la función de definición de la covarianza de la distancia es simplemente la covarianza clásica de eisX y eitY. La definición de la función característica muestra claramente que dCov2 (X, Y) = 0 si y solo si X e Y son independientes.

Varianza de la distancia y desviación estándar[editar]

La "varianza de la distancia" es un caso especial de covarianza de la distancia cuando las dos variables son idénticas. El valor poblacional de la varianza de la distancia es la raíz cuadrada de

donde denota el valor esperado, es una copia independiente e idénticamente distribuida de y es independiente de y de y tiene la misma distribución que y .

La varianza de la distancia de una muestra es la raíz cuadrada de

concepto relacionado con la diferencia media (introducida en 1912 por Corrado Gini, aunque Gini no trabajó con distancias centradas).

La desviación estándar de la distancia es la raíz cuadrada de la varianza de la distancia.

Correlación de la distancia[editar]

La correlación de la distancia[2][3]​ de dos variables aleatorias se obtiene dividiendo su covarianza de la distancia por el producto de sus desviaciones estándar de la distancia. La correlación de la distancia es

y la correlación de la distancia de la muestra se define sustituyendo la covarianza de la distancia de la muestra y las varianzas de la distancia por los coeficientes de población anteriores.

Para un cálculo fácil de la correlación de la distancia de la muestra, véase la función dcor en el paquete energy, escrito en código R.[4]

Propiedades[editar]

Correlación de la distancia[editar]

i.  y ; esto contrasta con la correlación de Pearson, que puede ser negativa.
ii.  si y solo si X e Y son independientes.
iii.  implica que las dimensiones de los subespacios lineales abarcados por las muestras de X e Y respectivamente son casi seguramente iguales y si se asume que estos subespacios son iguales, entonces en este subespacio para algunos vector A, escalar b, y matriz ortogonal .

Covarianza de la distancia[editar]

i.  y ;
ii. 
para todos los vectores constantes , los escalares , y las matrices ortonormales .
iii. Si los vectores aleatorios y son independientes entonces
La igualdad se mantiene si y solo si e son ambos constantes, o e son ambos constantes, o son mutuamente independientes.
iv.  si y solo si X e Y son independientes.

Esta última propiedad es el efecto más importante de trabajar con distancias centradas.

El indicador estadístico es un estimador sesgado de . Bajo la independencia de X e Y[8]

Székely y Rizzo dan un estimador no sesgado.[9]

Varianza de la distancia[editar]

i.  si y solo si casi seguramente.
ii.  si y solo si cada observación de la muestra es idéntica.
iii.  para todo vector constante A, escalares b, y matrices ortonormales .
iv. Si X e Y son independientes entonces .

La igualdad se mantiene en (iv) si y solo si una de las variables aleatorias X o Y es una constante.

Generalización[editar]

La covarianza de la distancia puede generalizarse para incluir potencias de la distancia euclidiana. Definiendo

entonces, para cada ; e son independientes si y solo si . Es importante tener en cuenta que esta caracterización no es válida para el exponente ; en este caso para bivariado, es una función determinista de la correlación de Pearson.[2]​ Si y son potencias de las distancias correspondientes, , entonces la covarianza de la distancia de la muestra se puede definir como el número no negativo para el que

Se puede extender a un espacio métrico con una variable aleatoria función de e : si tiene la ley en un espacio métrico con la métrica , se define , , y (siempre que sea finito, es decir, tenga un primer momento finito) . Luego, si tiene la ley (en un espacio métrico posiblemente diferente con un primer momento finito), se define

Su valor es no negativo para todos los si ambos espacios métricos tienen un tipo negativo.[10]​ Aquí, un espacio métrico tiene tipo negativo si es isométrico para un subconjunto de un espacio de Hilbert.[11]​ Si ambos espacios métricos tienen un tipo negativo fuerte, entonces si son independientes.[10]

Definición alternativa de covarianza de la distancia[editar]

La covarianza de la distancia original se ha definido como la raíz cuadrada de , en lugar del coeficiente cuadrático en sí mismo. tiene la propiedad de ser la distancia de la energía entre la distribución conjunta de y el producto de sus marginales. Sin embargo, bajo esta definición, la varianza de la distancia, en lugar de la desviación estándar de la distancia de , se mide en las mismas unidades que las distancias .

Alternativamente, se podría definir la covarianza de la distancia como el cuadrado de la distancia de la energía: En este caso, la desviación estándar de la distancia se mide en las mismas unidades que la distancia de , y existe un estimador no sesgado para la covarianza de la distancia de la población.[9]

Bajo estas definiciones alternativas, la correlación de la distancia también se define como el cuadrado , en lugar de la raíz cuadrada.

Formulación alternativa: covarianza browniana[editar]

La covarianza browniana tiene su origen en la generalización de la noción de covarianza a los procesos estocásticos. El cuadrado de la covarianza de las variables aleatorias X e Y se puede escribir de la siguiente forma:

donde E denota la esperanza matemática y las primas (') denotan copias independientes e idénticamente distribuidas. Se necesita la siguiente generalización de esta fórmula: si U(s), V(t) son procesos aleatorios arbitrarios definidos para todas las s y t reales, entonces se define la versión de X centrada en U por

siempre que exista el valor esperado condicional restado, denotando por YV la versión centrada en V de Y.[3][12][13]​ La covarianza (U, V) de (X, Y) se define como el número no negativo cuyo cuadrado es

siempre que el lado derecho sea no negativo y finito. El ejemplo más importante es cuando U y V son movimientos brownianos / procesos de Wiener independientes con expectativa cero y covarianza | s | + | t | − | st | = 2 min(s,t) (para s no negativo, solo t). (Esto es el doble de la covarianza del proceso de Wiener estándar; aquí el factor 2 simplifica los cálculos). En este caso, la covarianza (U, V) se llama covarianza browniana y se denota por

Se da una coincidencia sorprendente: la covarianza browniana es la misma que la covarianza de la distancia:

y por lo tanto, correlación browniana es lo mismo que correlación de la distancia.

Por otro lado, si se reemplaza el movimiento browniano con la función de identidad determinista id, entonces Covid (X, Y) es simplemente el valor absoluto de la clásica covarianza de Pearson.

Métricas relacionadas[editar]

Otras métricas correlacionales, incluidas las métricas correlacionales basadas en el núcleo (como el "Criterio de Independencia de Hilbert-Schmidt" o HSIC) también pueden detectar interacciones lineales y no lineales. Tanto la correlación de la distancia como las métricas basadas en el núcleo se pueden usar en métodos como análisis de la correlación canónica y análisis de componentes independientes para obtener un poder estadístico más fuerte.

Véase también[editar]

Referencias[editar]

  1. K. Pearson (1895)
  2. a b c G. J. Szekely; M. L. Rizzo; N. K. Bakirov (2007), «Measuring and testing independence by correlation of distances», Annals of Statistics 35 (6): 2769-2794, arXiv:0803.4101, doi:10.1214/009053607000000505 .
  3. a b c d G. J. Székely & M. L. Rizzo (2009), "Brownian distance covariance", The Annals of Applied Statistics
  4. a b energy package for R
  5. Gábor J Székely, Maria L. Rizzo : Partial Distance Correlation with Methods for Dissimilarities, page 11
  6. a b Székely & Rizzo (2009) Theorem 7, (3.7), p. 1249.
  7. Székely, G. J.; Rizzo, M. L. (2012). «On the uniqueness of distance covariance». Statistics & Probability Letters 82 (12): 2278-2282. doi:10.1016/j.spl.2012.08.007. 
  8. Székely and Rizzo (2009), Rejoinder
  9. a b Székely & Rizzo (2014)
  10. a b Lyons, R. (2011) "Distance covariance in metric spaces". arΧiv:1106.5758
  11. Klebanov, L. B. (2005) N-distances and their Applications, Karolinum Press, Charles University, Prague.
  12. Bickel & Xu (2009)
  13. Kosorok (2009)

Bibliografía[editar]

  • Bickel, P.J. and Xu, Y. (2009) "Discussion of: Brownian distance covariance", Annals of Applied Statistics, 3 (4), 1266–1269. doi 10.1214/09-AOAS312Apdf
  • Gini, C. (1912). Variabilità e Mutabilità. Bologna: Tipografia di Paolo Cuppini.
  • Pearson, K. (1895). "Note on regression and inheritance in the case of two parents", Proceedings of the Royal Society, 58, 240–242
  • Pearson, K. (1920). "Notes on the history of correlation", Biometrika, 13, 25–45.
  • Székely, G. J. and Rizzo, M. L. (2009). "Brownian distance covariance", Annals of Applied Statistics, 3/4, 1233–1303. doi 10.1214/09-AOAS312 10.1214/09-AOAS312 pdf
  • Kosorok, M. R. (2009) "Discussion of: Brownian Distance Covariance", Annals of Applied Statistics, 3/4, 1270–1278. doi 10.1214/09-AOAS312B pdf
  • Székely, G.J. and Rizzo, M.L. (2014) Partial distance correlation with methods for dissimilarities, The Annals of Statistics, 42/6, 2382-2412.[1]pdf.

Enlaces externos[editar]