Validez de la prueba

La validez de la prueba es la medida en que una prueba (como una prueba química, física o escolar) mide con precisión lo que se supone que debe medir. En los campos de las pruebas psicológicas y las pruebas educativas, "la validez se refiere al grado en que la evidencia y la teoría respaldan las interpretaciones de los puntajes de las pruebas que conllevan los usos propuestos de las pruebas".^[1] Aunque los modelos clásicos dividen el concepto en varias "validaciones" (como la validez de contenido, la validez de criterio y la validez de constructo),^[2] la visión dominante actual es que la validez es una construcción unitaria única.^[3]

La validez generalmente se considera el tema más importante en las pruebas psicológicas y educativas^[4] porque se refiere al significado otorgado a los resultados de las pruebas.^[3] Aunque muchos libros de texto presentan la validez como una construcción estática,^[5] varios modelos de validez han evolucionado desde las primeras recomendaciones publicadas para construir pruebas psicológicas y educativas.^[6] Estos modelos se pueden clasificar en dos grupos principales: modelos clásicos, que incluyen varios tipos de validez, y modelos modernos, que presentan la validez como una sola construcción. Los modelos modernos reorganizan las "validaciones" clásicas en "aspectos" de validez^[3] o "tipos" de evidencia que respalda la validez.^[1]

La validez de la prueba se puede probar / validar utilizando pruebas de confiabilidad entre evaluadores, confiabilidad dentro del evaluador, repetibilidad (confiabilidad de prueba-prueba) y otros rasgos, generalmente a través de múltiples ejecuciones de la prueba cuyos resultados se comparan. El análisis estadístico ayuda a determinar si las diferencias entre los diversos resultados son lo suficientemente grandes como para ser un problema o son aceptablemente pequeñas.

Antecedentes históricos

Aunque los psicólogos y educadores conocían varias facetas de la validez antes de la Segunda Guerra Mundial, sus métodos para establecer la validez se restringían comúnmente a las correlaciones de los puntajes de las pruebas con algún criterio conocido.^[7] Bajo la dirección de Lee Cronbach, las Recomendaciones técnicas de 1954 para pruebas psicológicas y técnicas de diagnóstico^[6] intentaron aclarar y ampliar el alcance de la validez dividiéndolo en cuatro partes: (a) validez concurrente, (b) validez predictiva, (c) validez de contenido, y (d) validez de constructo. La publicación posterior de Cronbach y Meehl^[8] agrupó la validez predictiva y concurrente en una "orientación de criterio", que finalmente se convirtió en validez de criterio.

Durante las siguientes cuatro décadas, muchos teóricos, incluido el propio Cronbach,^[9] expresaron su insatisfacción con este modelo de validez tres en uno.^[10]^[11]^[12] Sus argumentos culminaron en el artículo de 1995 de Samuel Messick que describía la validez como una construcción única, compuesta de seis "aspectos".^[3] En su opinión, varias inferencias hechas a partir de los puntajes de las pruebas pueden requerir diferentes tipos de evidencia, pero no diferentes validaciones.

Las Normas de 1999 para las pruebas educativas y psicológicas^[1] codificaron en gran medida el modelo de Messick. Describen cinco tipos de evidencia que respaldan la validez que incorporan cada uno de los aspectos de Messick, y no mencionan el contenido, el criterio y la validez de constructo de los modelos clásicos.

Proceso de validación

De acuerdo con las Normas de 1999,^[1] validación es el proceso de recopilación de evidencia para proporcionar "una base científica sólida" para interpretar los puntajes propuestos por el desarrollador de la prueba y/o el usuario de la prueba. Por lo tanto, la validación comienza con un marco que define el alcance y los aspectos (en el caso de escalas multidimensionales) de la interpretación propuesta. El marco también incluye una justificación racional que vincula la interpretación a la prueba en cuestión.

Luego, los investigadores de validez enumeran una serie de proposiciones que deben cumplirse para que la interpretación sea válida. O, por el contrario, pueden compilar una lista de problemas que pueden amenazar la validez de las interpretaciones. En cualquier caso, los investigadores proceden reuniendo evidencia, ya sea investigación empírica original, metaanálisis o revisión de literatura existente, o análisis lógico de los problemas, para apoyar o cuestionar las proposiciones de la interpretación (o las amenazas a la validez de la interpretación). Se enfatiza la calidad, más que la cantidad, de la evidencia.

Una sola interpretación de cualquier resultado de la prueba puede requerir que varias proposiciones sean verdaderas (o puede ser cuestionada por cualquiera de un conjunto de amenazas a su validez). La evidencia sólida en apoyo de una proposición única no disminuye el requisito de apoyar las otras proposiciones.

La evidencia para apoyar (o cuestionar) la validez de una interpretación se puede clasificar en una de cinco categorías:

Evidencia basada en el contenido de la prueba
Evidencia basada en procesos de respuesta
Evidencia basada en la estructura interna
Evidencia basada en las relaciones con otras variables
Evidencia basada en las consecuencias de las pruebas

Las técnicas para reunir cada tipo de evidencia solo deben emplearse cuando brindan información que respalde o cuestione las proposiciones requeridas para la interpretación en cuestión.

Cada evidencia se integra finalmente en un argumento de validez. El argumento puede requerir una revisión de la prueba, su protocolo de administración o las construcciones teóricas subyacentes a las interpretaciones. Si la prueba y / o las interpretaciones de los resultados de la prueba se revisan de alguna manera, un nuevo proceso de validación debe reunir evidencia para respaldar la nueva versión.

Véase también

Escala de validez

Referencias

↑ ^a ^b ^c ^d American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (1999) Standards for educational and psychological testing. Washington, DC: American Educational Research Association.
↑ Guion, R. M. (1980). On trinitarian doctrines of validity. Professional Psychology, 11, 385-398.
↑ ^a ^b ^c ^d Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American Psychologist, 50, 741-749.
↑ Popham, W. J. (2008). All About Assessment / A Misunderstood Grail. Educational Leadership, 66(1), 82-83.
↑ See the otherwise excellent text: Nitko, J.J., Brookhart, S. M. (2004). Educational assessment of students. Upper Saddle River, NJ: Merrill-Prentice Hall.
↑ ^a ^b American Psychological Association, American Educational Research Association, & National Council on Measurement in Education. (1954). Technical recommendations for psychological tests and diagnostic techniques. Washington, DC: The Association.
↑ Angoff, W. H. (1988). Validity: An evolving concept. In H. Wainer & H. Braun (Eds.), Test Validity (pp. 19-32). Hillsdale, NJ: Lawrence Erlbaum.
↑ Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281-302.
↑ Cronbach, L. J. (1969). Validation of educational measures. Proceedings of the 1969 Invitational Conference on Testing Problems. Princeton, NJ: Educational Testing Service, 35-52.
↑ Loevinger, J. (1957). Objective tests as instruments of psychological theory. Psychological Reports, 3, 634-694.
↑ Tenopyr, M. L. (1977). Content-construct confusion. Personnel Psychology, 30, 47-54.
↑ Guion, R. M. (1977). Content validity–The source of my discontent. Applied Psychological Measurement, 1, 1-10.

Datos: Q5372350

[1999standards-1] American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (1999) Standards for educational and psychological testing. Washington, DC: American Educational Research Association.

[guion1980-2] Guion, R. M. (1980). On trinitarian doctrines of validity. Professional Psychology, 11, 385-398.

[messick1995-3] Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American Psychologist, 50, 741-749.

[popham2008-4] Popham, W. J. (2008). All About Assessment / A Misunderstood Grail. Educational Leadership, 66(1), 82-83.

[5] See the otherwise excellent text: Nitko, J.J., Brookhart, S. M. (2004). Educational assessment of students. Upper Saddle River, NJ: Merrill-Prentice Hall.

[1954recommendations-6] American Psychological Association, American Educational Research Association, & National Council on Measurement in Education. (1954). Technical recommendations for psychological tests and diagnostic techniques. Washington, DC: The Association.

[angoff1988-7] Angoff, W. H. (1988). Validity: An evolving concept. In H. Wainer & H. Braun (Eds.), Test Validity (pp. 19-32). Hillsdale, NJ: Lawrence Erlbaum.

[cronbachmeehl1955-8] Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281-302.

[9] Cronbach, L. J. (1969). Validation of educational measures. Proceedings of the 1969 Invitational Conference on Testing Problems. Princeton, NJ: Educational Testing Service, 35-52.

[10] Loevinger, J. (1957). Objective tests as instruments of psychological theory. Psychological Reports, 3, 634-694.

[11] Tenopyr, M. L. (1977). Content-construct confusion. Personnel Psychology, 30, 47-54.

[12] Guion, R. M. (1977). Content validity–The source of my discontent. Applied Psychological Measurement, 1, 1-10.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]