Razón de correlación

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En Estadística, la razón de correlación es una medida de la relación entre la dispersión estadística entre categorías individuales y la dispersión entre la muestra o la población completa.

Suponga que cada observación es yxi donde 'x' indica la categoría a la que pertenece la observación, 'i' es la etiqueta de la observación en particular. Digamos que nx es el número de observaciones en la categoría 'x'

\overline{y}_x=\frac{\sum_i y_{xi}}{n_x} y \overline{y}=\frac{\sum_x n_x \overline{y}_x}{\sum_x n_x},

Donde \overline{y}_x es la media de la categoría x y \overline{y} es la media de la población. La razón de correlación η (eta) está definida para satisfacer

\eta^2 = \frac{\sum_x n_x (\overline{y}_x-\overline{y})^2}{\sum_{x,i} (y_{xi}-\overline{y})^2}

el cual puede ser escrita como

\eta^2 = \frac{{\sigma_{\overline{y}}}^2}{{\sigma_{y}}^2}, \text{ donde }{\sigma_{\overline{y}}}^2 = \frac{\sum_x n_x (\overline{y}_x-\overline{y})^2}{\sum_x n_x} \text{ y } {\sigma_{y}}^2 = \frac{\sum_{x,i} (y_{xi}-\overline{y})^2}{n},

Por ejemplo la varianza ponderada de las medias categóricas dividida por la varianza de todas la muestras .

Vale la pena señalar que si la relación entre los valores de x \;\ y los valores de \overline{y}_x es lineal (lo cual es sin duda cierto cuando sólo hay 2 posibilidades para x) esto dará el mismo resultado que el cuadrado del coeficiente de correlación, de otro modo la razón de correlación puede ser mayor en magnitud. Por lo tanto, se puede utilizar para juzgar las relaciones no lineales.

Rango[editar]

La razón de correlación \eta toma valores entre 0 y 1. El límite \eta=0 representa el caso especial de la no dispersión entre la medias de las diferentes categorías, mientras \eta=1 se refiere a la no dispersión dentro de las respectivas categorías. Tenga en cuenta además, que \eta es indefinido cuando todos los puntos de datos de la población completa toman el mismo valor.


Ejemplo[editar]

Suponga que hay una distribución de puntuaciones de examen en tres tópicos (categorías):

  • Algebra: 45, 70, 29, 15, 21 (5 puntuaciones)
  • Geometría: 40, 20, 30, 42 (4 puntuaciones)
  • Estadística: 65, 95, 80, 70, 85 ,73 (6 puntuaciones).

Entonces los promedios por categoría son 36, 33 y 78 respectivamente:

 \overline{X}_{algebra} = \frac{(45+70+29+15+21)}{5}= \frac{180}{5}=36
 \overline{X}_{geometria} = \frac{(40+20+30+42)}{4}= \frac{132}{4}=33
 \overline{X}_{estadistica} = \frac{(65+95+80+70+85+73)}{6}= \frac{468}{6}=78

Con un promedio general de 52.

 \overline{X} = \frac{(45+70+29+15+21)+(40+20+30+42)+(65+95+80+70+85+73)}{5+4+6}= \frac{180+132+468}{5+4+6}=\frac{780}{15}=52

Las sumas de cuadrados para las diferencia con respecto de la media por categoría son:

Algebra : (45-36)^2 + (70-36)^2 + (29-36)^2 + (15-36)^2 + (21-36)^2= 1952

Geometría : (40-33)^2 + (20-33)^2 + (30-33)^2 + (42-33)^2=308

Estadística : (65-78)^2 + (95-78)^2 + (80-78)^2 + (70-78)^2+ (85-78)^2+ (73-78)^2=600

Sumatoria : 1952+308+600=2860

La suma de cuadrados de la diferencia con respecto de la media global es:

 (45-52)^2 + (70-52)^2 + (29-52)^2 + (15-52)^2 + (21-52)^2 + (40-52)^2 + (20-52)^2 + (30-52)^2 + (42-52)^2 + (65-52)^2 + (95-52)^2 + (80-52)^2 + (70-52)^2+ (85-52)^2+ (73-52)^2=9640

Las sumas de los cuadrados de las diferencias con respecto de la media de las categorías son 1952 para Algebra, 308 para Geometría y 600 para Estadística, Sumando  1952+308+600=2860 , mientras que la suma de cuadrados para la diferencia con respecto de la media general es de 9640. La diferencia entre estos es de  9640-2860= 6780 que es también la suma ponderada del cuadrado de las diferencias entre los promedios de categorías y el promedio global:

5 (36-52)^2 + 4 (33-52)^2 +6 (78-52)^2 = 6780

Esto nos da

\eta^2 = \frac{6780}{9640}=0.7033\ldots

Lo que sugiere que la mayoría de la dispersión global es el resultado de las diferencias entre los topicos, y no dentro de los topicos. Tomando la raíz cuadrada

\eta = \sqrt{\frac{6780}{9640}}=0.8386\ldots

Observe que para \eta = 1 la dispersión de la muestra global se debe únicamente a la dispersión entre las categorías y en absoluto debido a la dispersión dentro de las categorías individuales. Para una comprensión rápida, simplemente imagine que los resultados de Álgebra, Geometría y Estadísticas son los mismos, respectivamente, por ejemplo, 5 veces 36, 4 veces 33, 6 veces 78.

El límite \eta = 0 se refiere al caso sin dispersión en las categorías que contribuyen a la dispersión global. El requisito trivial para este extremo es que todas las medias por categoría sean las mismas.

Pearson v. Fisher[editar]

La razón de correlación fue introducida por Karl Pearson como parte de analysis of variance. En Statistical Methods for Research Workers, Ronald Fisher comento:

Como un estadístico descriptivo la utilidad de la razón de correlación es extremamente limitada.. Se notara que el número de grados de libertad en el numerador de \eta^2 depende del número de los arreglos[1]

al cual Egon Pearson (hijo de Karl) respondió en una revisión al libro de Fisher diciendo

Una vez más, un método largamente establecido como la utilización del coeficiente de correlación [§ 45 La "Razón de Correlación" η] se pasa por encima en pocas palabras, sin una descripción adecuada, lo cual es quizás difícilmente justo para el estudiante a quien no se le da oportunidad de juzgar su ámbito de aplicación por sí mismo. [2]

Referencias[editar]

  1. http://psychclassics.yorku.ca/Fisher/Methods/chap8.htm
  2. http://www.economics.soton.ac.uk/staff/aldrich/fisherguide/esp.htm#esp1