Coeficiente kappa de Cohen

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

El Coeficiente kappa de Cohen es una medida estadística que ajusta el efecto del azar en la proporción de la concordancia observada[1]​ para elementos cualitativos (variables categóricas). En general se cree que es una medida más robusta que el simple cálculo del porcentaje de concordancia, ya que κ tiene en cuenta el acuerdo que ocurre por azar. Algunos investigadores[2]​ han expresado su preocupación por la tendencia de κ a dar por seguras las frecuencias de las categorías observadas, lo que puede tener el efecto de subestimar el acuerdo para una categoría de uso habitual; por esta razón, κ se considera una medida de acuerdo excesivamente conservadora.

Otros[3]​ discuten la afirmación de que kappa "tiene en cuenta" la posibilidad de acuerdo. Para hacerlo con eficacia se requeriría un modelo explícito de cómo afecta el azar a las decisiones de los observadores. El llamado ajuste por azar del estadístico kappa supone que, cuando no están absolutamente seguros, los evaluadores simplemente aventuran una respuesta (un escenario muy poco realista).

Cálculo[editar]

El Coeficiente kappa de Cohen mide la concordancia entre dos examinadores en sus correspondientes clasificaciones de N elementos en C categorías mutuamente excluyentes. La primera mención de un estadístico similar a kappa se atribuye a Galton (1892),[4]​ véase Smeeton (1985).[5]

La ecuación para κ es:

donde Pr (a) es el acuerdo observado relativo entre los observadores, y Pr (e) es la probabilidad hipotética de acuerdo por azar, utilizando los datos observados para calcular las probabilidades de que cada observador clasifique aleatoriamente cada categoría. Si los evaluadores están completamente de acuerdo, entonces κ = 1. Si no hay acuerdo entre los calificadores distinto al que cabría esperar por azar (según lo definido por Pr (e)), κ = 0.

El artículo pionero que introdujo kappa como nueva técnica fue publicado por Jacob Cohen en la revista Educational and Psychological Measurement en 1960.[6]

Un estadístico similar, llamado pi, fue propuesto por Scott (1955). Kappa de Cohen y pi de Scott difieren en cuanto a la forma de cálculo de Pr(e).

Hay que tener en cuenta que la kappa de Cohen sólo mide el acuerdo entre dos observadores. Para una medida de acuerdo similar ( kappa de Fleiss ) utilizada cuando hay más de dos observadores, véase Fleiss (1971). La Kappa de Fleiss, sin embargo, es una generalización para múltiples observadores del estadístico pi de Scott, y no de la kappa de Cohen.

Ejemplo[editar]

Se tiene un grupo de 50 personas que presentan una solicitud de subvención. Cada propuesta de subvención es analizada por dos evaluadores que anotan un "Sí" o un "No", según acepten o rechacen, respectivamente, la solicitud. El resultado del análisis de cada solicitud genera la tabla siguiente, en la que A y B denotan a cada uno de los dos evaluadores:

B
No
A 20 5
No 10 15

Los datos situados en la diagonal formada por los valores 20 y 15, representan el número de solicitudes en el que hay concordancia entre ambos evaluadores. Mientras que la diagonal formada por los valores de 10 y 5, representan los casos en los que hay discordancia entre los evaluadores.

Ahora pues, teniendo en cuenta que de las 50 solicitudes, 20 fueron aceptadas y 15 rechazadas por ambos evaluadores. El porcentaje de acuerdo observado es:

Para calcular Pr(e), es decir, la probabilidad de que el acuerdo entre evaluadores se deba al azar, se advierte que:

  • El evaluador A acepta (dice "Sí") 25 solicitudes y rechaza (dice "No") 25. Es decir, el evaluador A dice "Sí" el 50% de las veces.
  • El evaluador B acepta (dice "Sí") 30 solicitudes y rechaza (dice "No") 20. Es decir, el evaluador B dice "Sí" el 60% de las veces.

Por lo tanto, la probabilidad de que ambos evaluadores digan "Sí" al azar es:

Y la probabilidad de que ambos lectores digan "No" al azar es:

Teniendo en cuenta lo anterior, el valor de Pr(e) se calcula como la suma de las probabilidades de decir "Sí" y "No" al azar:

Aplicando los valores de Pr(a) y Pr(e) en la fórmula de Kappa de Cohen se obtiene:

Los mismos porcentajes pero diferentes números[editar]

Un caso que a veces se considera un problema con la Kappa de Cohen se produce al comparar las Kappas calculadas para dos pares de evaluadores, ambos pares de evaluadores tienen el mismo porcentaje de acuerdo, pero los evaluadores de uno de los pares tienen una distribución de calificaciones similar, mientras los evaluadores del otro par tienen una distribución de calificaciones muy diferente.[7]​ Por ejemplo, en las dos tablas siguientes el acuerdo entre A y B es similar (en ambos casos, 60 de cada 100), por lo tanto cabría esperar que los valores correspondientes de Kappa reflejaran esta similitud. Sin embargo, al calcular Kappa para cada tabla:

No
45 15
No 25 15
No
25 35
No 5 35

encontramos que muestra mayor similitud entre A y B en el segundo caso, en comparación con el primero. Esto se debe a que mientras el porcentaje de acuerdo es el mismo, el porcentaje de acuerdo que ocurriría "por casualidad" es significativamente mayor en el primer caso (0,54 comparado con 0,46).

Significado y magnitud[editar]

Archivo:Kappa vs accuracy.PNG
Kappa (eje vertical) y Precisión (eje horizontal) calculados a partir de los mismos datos binarios simulados. Cada punto en el gráfico se calcula a partir de un par de jueces que califican al azar a 10 sujetos para tener un diagnóstico de X o no. Nota en este ejemplo un Kappa = 0 es aproximadamente equivalente a una exactitud = 0.5

La Significación estadística no hace ninguna afirmación sobre cuán importante es la magnitud en una aplicación dada o lo que se considera un acuerdo alto o bajo.

La significación estadística para kappa rara vez se informa, probablemente porque incluso valores relativamente bajos de kappa pueden ser significativamente diferentes de cero pero no de magnitud suficiente para satisfacer a los investigadores.[8]​ Sin embargo, su error estándar se ha descrito [9]​ y es calculado por varios programas de computadora.[10]

Si la significación estadística no es una guía útil, ¿qué magnitud de kappa refleja un acuerdo adecuado? Las directrices serían útiles, pero otros factores distintos del acuerdo pueden influir en su magnitud, lo que hace problemática la interpretación de una determinada magnitud. Como señalan Sim y Wright, dos factores importantes son la prevalencia (son los códigos equiprobables o sus probabilidades varían) y el sesgo (son las probabilidades marginales para los dos observadores similares o diferentes). En igualdad de condiciones, las kappas son más altas cuando los códigos son equiprobables. Por otro lado, los Kappas son mayores cuando los códigos son distribuidos asimétricamente por los dos observadores. En contraste con las variaciones de probabilidad, el efecto del sesgo es mayor cuando Kappa es pequeño que cuando es grande.[11]:261–262

Referencias[editar]

  1. Carletta, Jean. (1996) Assessing agreement on classification tasks: The kappa statistic. Computational Linguistics, 22(2), pp. 249–254.
  2. Strijbos, J.; Martens, R.; Prins, F.; Jochems, W. (2006). «Content analysis: What are they talking about?». Computers & Education 46: 29-48. doi:10.1016/j.compedu.2005.04.002. 
  3. Uebersax, JS. (1987). «Diversity of decision-making models and the measurement of interrater agreement» (PDF). Psychological Bulletin 101: 140-146. doi:10.1037/0033-2909.101.1.140. 
  4. Galton, F. (1892). Finger Prints Macmillan, London.
  5. Smeeton, N.C. (1985). «Early History of the Kappa Statistic». Biometrics 41: 795. 
  6. Cohen, Jacob (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement 20 (1): 37–46. doi:10.1177/001316446002000104
  7. Kilem Gwet (May 2002). «Inter-Rater Reliability: Dependency on Trait Prevalence and Marginal Homogeneity». Statistical Methods for Inter-Rater Reliability Assessment 2: 1-10. 
  8. Bakeman, R.; Gottman, J.M. (1997). Observing interaction: An introduction to sequential analysis (2nd edición). Cambridge, UK: Cambridge University Press. ISBN 0-521-27593-8. 
  9. Fleiss, J.L.; Cohen, J.; Everitt, B.S. (1969). «Large sample standard errors of kappa and weighted kappa». Psychological Bulletin 72: 323-327. doi:10.1037/h0028106. 
  10. Robinson, B.F; Bakeman, R. (1998). «ComKappa: A Windows 95 program for calculating kappa and related statistics». Behavior Research Methods, Instruments, and Computers 30: 731-732. doi:10.3758/BF03209495. 
  11. Sim, J; Wright, C. C (2005). «The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements». Physical Therapy 85: 257-268. PMID 15733050.