Fiabilidad (psicometría)

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En el campo de la psicología, la educación y la investigación social, la fiabilidad (también llamada técnicamente confiabilidad) es una propiedad psicométrica que hace referencia a la ausencia de errores de medida, o lo que es lo mismo, al grado de consistencia y estabilidad de las puntuaciones obtenidas a lo largo de sucesivos procesos de medición con un mismo instrumento.

Consideraciones generales[editar]

Es necesario aclarar que la fiabilidad no es una propiedad de los tests en sí mismos, sino de las interpretaciones, inferencias o usos específicos que se hagan a partir de los datos y medidas que estos proporcionan. Asimismo, no puede hablarse de la fiabilidad en términos absolutos; sí cabría hablar del grado de fiabilidad que puedan presentar los instrumentos de medida en un contexto de aplicación determinado.

A partir de la variabilidad en las puntuaciones encontradas tras una serie de mediciones repetidas puede determinarse el índice de precisión, consistencia y estabilidad de un instrumento. En el supuesto de que el resto de condiciones se mantengan inalteradas, puede concluirse que, a mayor variabilidad de resultados, menor fiabilidad del instrumento de medición.[1]

No obstante, uno de los principales problemas que se presentan en el campo de la investigación en ciencias sociales tiene que ver con la dificultad de conseguir que las distintas medidas se realicen exactamente en las mismas condiciones. Las condiciones personales de los sujetos, como la motivación, la maduración o el grado de atención, pueden variar de una medición a otra, por lo que resulta imprescindible establecer un procedimiento estandarizado de medición que permita reducir al mínimo las variables extrañas que puedan influir en los resultados finales. Por lo tanto, la fiabilidad hace referencia a la estabilidad y consistencia de las mediciones en aquellos casos en los que no existen razones teóricas o empíricas que nos hagan suponer que la variable que se mide se haya visto modificada de forma significativa por los sujetos, por lo que se asume su estabilidad.[2]

La teoría clásica de los tests[editar]

En el marco de la teoría clásica de los tests, según el modelo lineal clásico propuesto por Charles Spearman (1904, 1907, 1913); la puntuación empírica (X) que obtiene un sujeto en un test, es la suma de dos componentes: la puntuación verdadera (V) y el inevitable error de medida asociado al instrumento.[3] Es decir, si a la puntuación empírica (obtenida en la prueba) se le elimina el error de medida, se obtendrá la puntuación verdadera. En este contexto, la fiabilidad hace referencia a la proporción de la varianza verdadera, es decir, la parte de la varianza total que los ítems discriminan por lo que tienen en común.[4] Siguiendo este razonamiento, obtendríamos:

 \rho_{xx'} = \frac{{\sigma}^2_V}{{\sigma}^2_X} = 1 - \frac{ \sigma^2_E }{ \sigma^2_X }

donde \rho_{xx'} es el símbolo de la fiabilidad de las puntuaciones observadas (X); y \sigma^2_X, \sigma^2_V, y \sigma^2_E son las varianzas de las puntuaciones empíricas, verdaderas y de error, respectivamente. Dado que no existe modo alguno de determinar la puntuación verdadera directamente, existe una serie de métodos para realizar una estimación de la fiabilidad.

Coeficiente de fiabilidad[editar]

El coeficiente de fiabilidad ({\rho_{xx'}}) es la correlación entre las puntuaciones obtenidas por los sujetos en dos formas paralelas de un test (X y X'). Suponiendo que las dos formas del test sean realmente paralelas (es decir, midan realmente lo mismo), las puntuaciones de los sujetos deberían ser iguales en ambas aplicaciones. Así, cuando la correlación es igual a 1, la fiabilidad es máxima. El grado en que el coeficiente de fiabilidad se aleje de 1 será un indicador del grado de error aleatorio de medida que estaremos cometiendo en la aplicación de las pruebas. El coeficiente de fiabilidad no debe confundirse con el índice de fiabilidad, que es la correlación entre las puntuaciones verdaderas y las empíricas ({\rho_{xv}}), y se obtiene a partir de la raíz cuadrada del coeficiente.

Estimación empírica del coeficiente de fiabilidad[editar]

Desde la Teoría Clásica de los Tests (TCT) se han propuesto diferentes procedimientos para calcular la fiabilidad. Algunos de ellos son los siguientes:

Formas paralelas[editar]

Este procedimiento es el que se deriva naturalmente del modelo. Requiere que se utilicen dos pruebas o instrumentos paralelos, esto es, que midan lo mismo de forma diferente (por ejemplo, dos tests que con diferentes preguntas midan un determinado rasgo). Después se comparan los dos tests, calculando el coeficiente de correlación de Pearson. Esta correlación será, como hemos visto en el apartado anterior, el coeficiente de fiabilidad. Si la correlación es alta, se considera que hay una buena fiabilidad. Al valor obtenido también se le conoce como coeficiente de equivalencia, en la medida en que supone un indicador del grado de equivalencia entre las dos formas paralelas de un test.

La dificultad de este procedimiento radica en conseguir que dos instrumentos sean realmente "paralelos", dada la dificultad que supone realizar dos pruebas que midan exactamente lo mismo, pero con diferentes ítems. No obstante, en condiciones ideales en las que se pueda garantizar el paralelismo de ambas formas, este es el método más recomendable.

Test-retest[editar]

Con este método el coeficiente de fiabilidad se calcula pasando mismo test dos veces a los mismos sujetos. Se pueden pasar inmediatamente, o dejando un intervalo de tiempo entre el test y el retest. Después se calcula la correlación de Pearson entre las puntuaciones de ambas aplicaciones, y el resultado obtenido será el coeficiente de fiabilidad. Se considera un caso específico de formas paralelas, dado que evidentemente un test es paralelo a sí mismo. Al resultado obtenido se le denomina coeficiente de estabilidad, al servir de indicador de hasta qué punto son estables las mediciones realizadas durante la primera aplicación del test. Las diferencias en los resultados se atribuyen al grado de consistencia interna o muestreo de los ítems de la prueba en el caso de pasar el retest de forma inmediata, y se le suman las fluctuaciones en el tiempo en el caso del intervalo temporal.

Dejar transcurrir un espacio de tiempo excesivo entre ambas aplicaciones puede suponer una amenaza a la validez interna por las posibles influencias externas a la que pueden estar expuestos los sujetos durante el intervalo, y que pueden afectar a su desempeño en la segunda aplicación. En el extremo opuesto, una aplicación demasiado apresurada del retest podría afectar igualmente a la validez interna, en este caso por los posibles efectos del recuerdo reciente de la primera aplicación. La elección del intervalo de tiempo adecuado entre ambas aplicaciones dependerá en gran medida del tipo de test, ya que en función de su formato puede ser más sensible al efecto de una u otra amenaza.[2]

Dos mitades[editar]

A diferencia de los anteriores, este método sólo requiere una aplicación del test. Tras obtener las puntuaciones obtenidas por los sujetos en cada una de las dos mitades en que se habrá dividido, se procede a calcular la correlación entre las dos puntuaciones. El resultado obtenido será un indicador de la covariación entre ambas mitades, es decir, de la consistencia interna del test. La principal dificultad de este sistema es asegurarse de que ambas mitades sean efectivamente paralelas. Un sistema habitual es dividir el test entre los ítems pares y los impares; no es recomendable dividirlo sin más por la mitad, dado que muchos tests muestran un incremento gradual de la dificultad de sus ítems.[2]

Otros métodos basados en la consistencia interna[editar]

  • Alfa de Cronbach (1951): El coeficiente alfa (α) es un indicador de la fiabilidad de un test basado en su grado de consistencia interna. Indica el grado en que los ítems de un test covarían.
  • Coeficientes de Kuder-Richardson (1937): Se trata de dos fórmulas aplicables a sendos casos particulares de alfa. KR20 se aplica en el caso en que los ítems del test sean dicotómicos, y KR21, en el caso de que además de ser dicotómicos, tengan la misma dificultad.
  • Método de Rulon (1939): Una estimación de la fiabilidad de un test a partir de las puntuaciones obtenidas en sus dos mitades. Considera que la diferencia entre las dos mitades se debe sólo al error aleatorio.
  • Método de Guttman/Flanagan (1945/1937): Otra fórmula basada en la consistencia interna, equivalente a la de Rulon.
  • Coeficiente beta (β): Propuesto por Raju (1977) para calcular la fiabilidad de una batería compuesta por diversos subtests. En los casos en los que se desea calcular la fiabilidad de una batería, se trata a los distintos subtests como si fueran los ítems de un único test y se calcula el coeficiente alfa global. El problema surge en los casos en los que los distintos subtests no tienen el mismo número de ítems, lo que suele ser lo más frecuente, y que repercute en una infraestimación del alfa global. El coeficiente beta permite sortear esta infraestimación.
  • Coeficientes theta (θ) y omega (Ω): Basados en el análisis factorial de los ítems, son indicadores de la consistencia interna similares al coeficiente alfa. El coeficiente theta fue desarrollado por Carmines y Zeller (1979); y el coeficiente omega fue desarrollado por Heise y Bohrnstedt (1970).[2]

Relaciones entre fiabilidad y otros factores[editar]

Hay dos factores que afectan al grado de fiabilidad de un test: la variabilidad y la longitud.

  • Fiabilidad y variabilidad: El tipo de muestra de sujetos que se haya escogido para calcular la fiabilidad de un test puede influir en el resultado obtenido. Esto significa que la fiabilidad ya no depende únicamente de las características del test, sino también de la muestra de sujetos a los que se aplique, por lo que no se puede decir que un mismo test tenga un coeficiente de fiabilidad fijo. En suma, puede afirmarse que la fiabilidad de un test será mayor cuanta mayor variabilidad exista en la muestra de sujetos seleccionada.
  • Fiabilidad y longitud: En términos generales, puede decirse que la fiabilidad de un test aumenta a medida que aumenta su longitud, es decir, su número de ítems. Ello no significa que resulte recomendable alargar innecesariamente un test en pro de aumentar su fiabilidad, ni que cualquier test pueda convertirse en un instrumento fiable por el único medio de aumentar indefinidamente su longitud. La fórmula de Spearman-Brown permite pronosticar el aumento de fiabilidad obtenida tras el incremento de la longitud de un test, siempre y cuando los ítems añadidos sean paralelos a los ya existentes.[2]

Véase también[editar]

Referencias[editar]

  1. Prieto, Gerardo; Delgado, Ana R. (2010). «Fiabilidad y validez». Papeles del psicólogo (España: Consejo General de Colegios Oficiales de Psicólogos) 31 (1):  pp. 67-74. ISSN 0214-7823. http://www.papelesdelpsicologo.es/pdf/1797.pdf. Consultado el 18 de febrero de 2011. 
  2. a b c d e Muñiz, José (1998). «Fiabilidad». Teoría clásica de los tests (5ª edición). Madrid: Pirámide. ISBN 843681262X. http://www.agapea.com/libros/Teoria-clasica-de-los-tests-isbn-843681262X-i.htm. Consultado el 18 de febrero de 2011. 
  3. Muñiz, José (2010). «Las teorías de los tests: Teoría clásica y teoría de respuesta a los ítems». Papeles del psicólogo (España: Consejo General de Colegios Oficiales de Psicólogos) 31 (1):  pp. 57-66. ISSN 0214-7823. http://www.papelesdelpsicologo.es/pdf/1796.pdf. Consultado el 18 de febrero de 2011. 
  4. Morales Vallejo, Pedro (2007). Estadística aplicada a las ciencias sociales. La fiabilidad de los tests y escalas. Madrid: Universidad Pontificia Comillas.  pp. 8. http://www.upcomillas.es/personal/peter/estadisticabasica/Fiabilidad.pdf. Consultado el 18 de febrero de 2011. 

Bibliografía[editar]

Muñiz, José (1998). «Fiabilidad». Teoría clásica de los tests (5ª edición). Madrid: Pirámide. ISBN 843681262X. http://www.agapea.com/libros/Teoria-clasica-de-los-tests-isbn-843681262X-i.htm. Consultado el 18 de febrero de 2011.