Usuario:JFMonge/Taller

De Wikipedia, la enciclopedia libre

El coeficiente de concordancia de de Kendall es una generalización del Coeficiente de correlación de rango de Kendall, comúnmente conocido como coeficiente de Kendall.


Coeficiente de Kendall[editar]

El coeficiente es una mediada de semejanza de los datos cuando tenemos un conjunto de observaciones de dos variables aleatorias conjuntas X e Y. Sin dado un par de observaciones y se dice que son observaciones concordantes si ambos e o ambos e , de lo contrario se denominan discordantes.

El coeficiente de Kendall queda definido como:

[1]

Donde es el coeficiente binomial para la cantidad de formas de elegir dos elementos de elementos.


La diferencia entre el número de pares concordantes y el número de pares discordantes puede calcularse a partir de la distancia de Kendall, distancia que cuenta el número de desacuerdos entre dos rankings de elementos. Cuanto mayor sea la distancia, mayor es el grado de disimilitud entre los dos rankings comparados. La distancia de Kendall puede definirse del siguiente modo:

donde,

y es el orden que ocupa el elemento i en cada uno de los dos rankings y .


Por ejemplo, la distancia de Kendall entre la permutación 123 y las permutaciones 131, 231 y 321 es 1,2 y 3 respectivamente.

La distancia de Kendall entre dos permutaciones de elementos es el menor número de intercambios de dos elementos consecutivos en una de las permutaciones para obtener la otra permutación, así por ejemplo, podemos partir de la permutación 123, intercambiar los elementos obteniendo la permutación 132, si realizamos ahora el intercambio obtenemos la permutación 312, por lo tanto, la distancia de Kendall entre la permutación 123 y 312 es 2, los movimientos necesarios para transformar una de las permutaciones en la otra.


El coeficiente de correlación de Kendall se presenta normalizado mediante el valor , y por lo tanto, el coeficiente



Definición del coeficiente de concordancia de Kendall[editar]

En estadística, el coeficiente de correlación de rango de Kendall, comúnmente conocido como coeficiente τ de Kendall (con la letra griega τ, tau), es una estadística utilizada para medir la asociación ordinal entre dos cantidades medidas. Una prueba τ es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente τ.



Es una medida de correlación de rango: la semejanza en el ordenamiento de los datos cuando se clasifican en rangos por cada una de las cantidades. Su nombre referencia a Maurice Kendall, quién lo desarrolló en 1938, aunque Gustav Fechner había propuesto una medida similar en el contexto de series de tiempo en 1897.[2][3]

Intuitivamente, la correlación de Kendall entre dos variables será alta cuando las observaciones tengan un rango similar (o idéntico para una correlación de 1) (es decir, la posición relativa de las observaciones dentro de la variable: 1º, 2º, 3º, etc.) entre los dos variables, y bajo cuando las observaciones tienen un rango diferente (o completamente diferente para una correlación de -1) entre las dos variables.

Tanto de Kendall y de Spearman pueden formularse como casos especiales de un coeficiente de correlación general .

Definición[editar]

Sea un conjunto de observaciones de las variables aleatorias conjuntas X e Y, de modo que todos los valores de ( ) y ( ) son únicos (los vínculos se ignoran por simplicidad). Cualquier par de observaciones y , dónde , se dice que son un par concordante si el orden de clasificación de y está de acuerdo: es decir, si ambos e o ambos e  ; de lo contrario se dice que son discordantes .

El coeficiente τ de Kendall se define como:

[4]

Donde es el coeficiente binomial para la cantidad de formas de elegir dos elementos de elementos.

Propiedades[editar]

El denominador es el número total de combinaciones de pares, por lo que el coeficiente debe estar en el rango −1   ≤   τ   ≤   1)

  • Si la concordancia entre las dos clasificaciones es perfecto (es decir, son iguales) el coeficiente tiene el valor 1.
  • Si el desacuerdo entre las dos clasificaciones es perfecto (es decir, una clasificación es la inversa de la otra), el coeficiente tiene un valor −1.
  • Si X e Y son independientes, entonces esperaríamos que el coeficiente sea aproximadamente cero.
  • Una expresión explícita para el coeficiente de rango de Kendall es .

Prueba de hipótesis[editar]

El coeficiente de rango de Kendall a menudo se usa como estadística de prueba en una prueba de hipótesis estadística para establecer si dos variables pueden considerarse como dependientes estadísticamente. Esta prueba es no paramétrica, ya que no se basa en suposiciones sobre las distribuciones de X o Y o la distribución de ( X, Y ).

Bajo la hipótesis nula de independencia de X e Y, la distribución muestral de τ tiene un valor esperado de cero. La distribución precisa no puede caracterizarse en términos de distribuciones comune, pero puede calcularse exactamente para muestras pequeñas; para muestras más grandes, es común usar una aproximación a la distribución normal, con media cero y varianza:

. [5]

Contabilidad de empates[editar]

Un par se dice que está empatado si o  ; un par empatado no es ni concordante ni discordante. Cuando surgen pares vinculados en los datos, el coeficiente puede modificarse de varias maneras para mantenerlo en el rango [−1,   1]:

Tau-a[editar]

La prueba estadística Tau indica la fuerza de asociación de las tabulaciones cruzadas. Ambas variables tienen que ser ordinales. Tau-a no hará ningún ajuste ante empates. Se define como:

donde nc, nd y n0 se definen como en la siguiente sección.

Tau-b[editar]

La estadística Tau-b, a diferencia de Tau-a, hace ajustes ante empates.[6]​ Los valores de Tau-b varían de −1 (asociación negativa al 100% o inversión perfecta) a +1 (asociación positiva al 100% o acuerdo perfecto). Un valor de cero indica la ausencia de asociación.

El coeficiente Kendall Tau-b se define como:

dónde

Tenga en cuenta que algunos software estadísticos, por ejemplo SPSS, utilizan fórmulas alternativas por eficiencia computacional, con el doble del número 'habitual' de pares concordantes y discordantes. [7]

Tau-c[editar]

Tau-c (también llamado Stuart-Kendall Tau-c) [8]​ es más adecuado que Tau-b para el análisis de datos basados en tablas de contingencia no cuadradas (es decir, rectangulares). [9]​ Por lo tanto, use Tau-b si la escala subyacente de ambas variables tiene el mismo número de valores posibles (antes de la clasificación) y Tau-c si difieren. Por ejemplo, una variable podría puntuarse en una escala de 5 puntos (muy buena, buena, promedio, mala, muy mala), mientras que la otra podría basarse en una escala más fina de 10 puntos.

El coeficiente Kendall Tau-c se define como: [9]

dónde

Pruebas de significancia[editar]

Cuando dos cantidades son estadísticamente independientes, la distribución de no es fácilmente caracterizable en términos de distribuciones conocidas. Sin embargo, para la siguiente estadística, , se distribuye aproximadamente como un estándar normal cuando las variables son estadísticamente independientes:

Por lo tanto, para probar si dos variables son estadísticamente dependientes, uno calcula y encuentra la probabilidad acumulativa de una distribución normal estándar en . Para una prueba de 2 colas, multiplique ese número por dos para obtener el valor p . Si el valor p está por debajo de un nivel de significancia dado, uno rechaza la hipótesis nula (en ese nivel de significancia) de que las cantidades son estadísticamente independientes.

Se deben agregar numerosos ajustes a al contabilizar los empates. La siguiente estadística, , tiene la misma distribución que la distribución , y nuevamente es aproximadamente igual a una distribución normal estándar cuando las cantidades son estadísticamente independientes:

dónde

Esto a veces se conoce como la prueba de Mann-Kendall. [10]

Algoritmos[editar]

El cálculo directo del numerador. , implica dos iteraciones anidadas, caracterizadas por el siguiente pseudocódigo:

numerador := 0
for i := 2..N do
  for j := 1..(i - 1) do
    numerador := numerador + signo(x[i] - x[j]) × signo(y[i] - y[j])
return numerador

Aunque es rápido de implementar, este algoritmo es en complejidad y se vuelve muy lento en muestras grandes. Se puede usar un algoritmo más sofisticado [11]​ construido sobre el algoritmo Merge Sort para calcular el numerador en tiempo .

Comience ordenando sus puntos de datos por la primera cantidad, y secundariamente (entre empates en ) por la segunda cantidad, . Con este ordenamiento inicial no está ordenado, y el núcleo del algoritmo consiste en calcular cuántos pasos tomaría una Bubble Sort para ordenar esta inicial. Un algoritmo mejorado de clasificación por mezcla, con complejidad , se puede aplicar para calcular el número de intercambios, , eso sería requerido por un Bubble Sort para ordenar . Entonces el numerador para se calcula como:

dónde se calcula como y , pero con respecto a los empates conjuntos en y .

Un ordenamiento por mezcla divide los datos que se ordenarán en dos mitades aproximadamente iguales y , ordena cada mitad recursivamente y luego combina las dos mitades ordenadas en un vector completamente ordenado. El número de intercambios de Bubble Sort es igual a:

dónde y son las versiones ordenadas de y y caracteriza el Bubble Sort swap-equivalente para una operación de fusión. se calcula como se muestra en el siguiente pseudocódigo:

 function M(L[1..n], R[1..m]) is
  i := 1
  j := 1
  nSwaps := 0
  while i ≤ n and j ≤ m do
    if R[j] < L[i] then
      nSwaps := nSwaps + n - i + 1
      j := j + 1
    else
      i := i + 1
  return nSwaps 

Un efecto secundario de los pasos anteriores es que uno termina con una versión ordenada de y una versión ordenada de . Con esto, los factores y usados para calcular se obtienen fácilmente en un solo paso de tiempo lineal a través de las matrices ordenadas.

Implementaciones de software[editar]

Véase también[editar]

Referencias[editar]

  1. Nelsen, R.B. (2001), «JFMonge/Taller», en Hazewinkel, Michiel, ed., Encyclopaedia of Mathematics (en inglés), Springer, ISBN 978-1556080104 .
  2. Kendall, M. (1938). «A New Measure of Rank Correlation». Biometrika 30 (1–2): 81-89. doi:10.1093/biomet/30.1-2.81. 
  3. Kruskal, W. H. (1958). «Ordinal Measures of Association». Journal of the American Statistical Association 53 (284): 814-861. doi:10.2307/2281954. 
  4. Nelsen, R.B. (2001), «JFMonge/Taller», en Hazewinkel, Michiel, ed., Encyclopaedia of Mathematics (en inglés), Springer, ISBN 978-1556080104 .
  5. Prokhorov, A.V. (2001), «JFMonge/Taller», en Hazewinkel, Michiel, ed., Encyclopaedia of Mathematics (en inglés), Springer, ISBN 978-1556080104 .
  6. Agresti, A. (2010). Analysis of Ordinal Categorical Data (Second edición). New York: John Wiley & Sons. ISBN 978-0-470-08289-8. 
  7. IBM (2016). IBM SPSS Statistics 24 Algorithms. IBM. p. 168. Consultado el 31 de agosto de 2017. 
  8. Berry, K. J.; Johnston, J. E.; Zahran, S.; Mielke, P. W. (2009). «Stuart's tau measure of effect size for ordinal variables: Some methodological considerations». Behavior Research Methods 41 (4): 1144-1148. PMID 19897822. doi:10.3758/brm.41.4.1144. 
  9. a b Stuart, A. (1953). «The Estimation and Comparison of Strengths of Association in Contingency Tables». Biometrika 40 (1–2): 105-110. doi:10.2307/2333101. 
  10. Glen_b. «Relationship between Mann-Kendall and Kendall Tau-b». 
  11. Knight, W. (1966). «A Computer Method for Calculating Kendall's Tau with Ungrouped Data». Journal of the American Statistical Association 61 (314): 436-439. doi:10.2307/2282833. 

Otras lecturas[editar]

Enlaces externos[editar]