Teoría de respuesta al ítem

La teoría de respuesta al ítem (TRI ó IRT por sus siglas más conocidas, en inglés),^[1]^[2] teoría del rasgo latente (TRL) o teoría de respuesta al reactivo (TRR), es un desarrollo reciente de la psicometría, y como tal se refiere también a un modelo matemático propuesto para medir el funcionamiento mental del ser humano.

Antecedentes

El origen de la Teoría de respuesta al item se asocia con el trabajo del matemático danés Georg Rasch (1960), y con libro publicado en 1968 por los norteamericanos Lord y Novick, aunque parece cada vez más claro que ideas muy semejantes ya habían sido expuestas antes, incluso en los fundadores del campo (Louis Leon Thurstone, 1912 y Alfred Binet, 1905). Expositores recientes recalcan que esta teoría busca ser Aristotélica (en el sentido de poner más atención a los datos y la manera como los seres humanos responden a instrumentos de medición) que Platónica (es decir, basada en una idealización de condiciones cuyos presupuestos casi nunca se verifican) como sería el caso de la Teoría Clásica de la Medida, versión psicométrica más enseñada, aunque poco aprendida, en la educación universitaria actual. ^{[cita requerida]}

El problema básico de la Teoría Clásica (TC) es que no es posible separar lo que se mide de quién se mide. Esto ha sido analogado a medir el peso, por ejemplo, con una báscula de contrapesos como la existente en comercios antiguos o rurales, y medirlo con un aparato electrónico, concluyendo que se trata de entidades (peso) distintas porque se usaron instrumentos y escalas diferentes. Absurdo como suena, en la actualidad se cuenta con varios instrumentos para medir depresión, por ejemplificar, que dan medidas diferentes inherentemente incomparables, dado que no se puede decidir de manera objetiva cuál mide efectivamente ese rasgo, pues fueron construidas bajo la teoría clásica y están sujetas a sus paradojas.

En breve, para poder medir bajo la TC se asume que puntaje real del rasgo psicológico a medir (T) está relacionado con el puntaje observado (O) de manera directa, si bien sujeto a algún error, como se expresa en $T=O+e$ . (En esa expresión puede verse ya el platonismo señalado líneas arriba). Así que para saber de qué tamaño es ese error y estimar entonces el puntaje real debe cubrirse un conjunto de requisitos conocidos como tau-equivalencia, el más importante de los cuales en este contexto es que deben tenerse varias observaciones del rasgo en condiciones (idealmente) iguales. La varianza de estas será distriibuida normalmente y su media puede ser estimada puntualmente, con lo que se tiene el valor de $e$ al cual se adicionará $O$ para estimar $T$ . Esta es la razón de que los instrumentos psicológicos tengan más de un reactivo o item.

Paradojas

Las paradojas de esta aproximación son las siguientes:

Los puntajes observados son únicamente de nivel ordinal, no importa qué tan diminutos sean los intervalos de respuesta, y por tanto no está justificado el uso de la mayoría de los procedimientos estadísticos multivariados.
Los puntajes están en una escala, mientras las personas sujetas a evaluación están en otra (n-tiles o derivados). En este sentido nunca se está midiendo el rasgo personal, sino el ordenamiento de los sujetos de la muestra en él.
Mientras más reactivos se tenga, mejor estimación de precisión (confiabilidad) se obtendrá, como si los sujetos no variaran.

Estas y otras dificultades fueron secreto a voces para los profesionales de la medición, especialmente del logro académico. Se desarrollaron, todavía bajo la TC algunas soluciones, entre otras la equiparación (equating) y la... Ninguna de ellas daba resultados Óptimos, lo que permitía la acusación de inequidad de la medición, por ejemplo de exámenes de ingreso a la universidad o al trabajo con sesgos importantes hacia algún grupo social. La teoría de facetas fue un intento más en esta dirección, la cual aplicaba la lógica del análisis de varianza para descomponer la relación entre $T$ , $O$ y $e$ , y por tanto, manteniendo en lo fundamental los presupuestos

Los modelos TRI

La nueva perspectiva desecha la idea de que $T$ y $O$ están directamente relacionadas, postulando en su lugar que esta relación es probabilística, no lineal y abstracta.

La TRI ha reemplazado a la Teoría Clásica de medida como marco para el desarrollo de tests, construcción de escalas… Tanto en la teoría clásica de los tests como en la teoría de la generalizabilidad, las puntuaciones de un test son más dependientes de la muestra que de la propia función analizada. La TRI trata de subsanar dos problemas. El primero hace referencia al error en la medida y asume que las puntuaciones de los sujetos en un test estarán afectadas por un error aleatorio, atribuible a diversas causas: dependientes del sujeto, del ambiente, del instrumento y del propio proceso de evaluación. El segundo se refiere a la invarianza de las mediciones y las propiedades de los instrumentos. Los principales objetivos de la TRI son:

Puntuaciones independientes de la norma: búsqueda de medidas que sean independientes de las puntuaciones estándar derivadas del grupo.
La elaboración de nuevas pruebas que analicen la invarianza de la conducta en sí misma, de modo que un test represente con precisión un dominio gradual de conocimiento relativo a una única medida.
La relación de los dos conceptos anteriores permite un tipo de medida en la que los parámetros de ítem y de persona son ambos invariantes, de tal modo que ni la elección de una muestra de sujetos, ni la elección de los ítems afecte a los parámetros de dificultad del ítem ni a los de la habilidad.
La agilidad en la combinatoria de ítems de test, que pertenezcan a un mismo dominio de conducta, dando paso a la aplicación de tests adaptados al sujeto, en función de la capacidad de las habilidades de cada individuo.

En cuanto al cálculo estadístico, la TRI utiliza un modelo matemático logístico para describir la relación entre el nivel de habilidad del examinado y la probabilidad que éste dé una respuesta correcta a un ítem del test. Algunas aplicaciones de la TRI han consistido en la creación de bancos de ítems y los diseños de tests a la medida del sujeto o test adaptativos computadorizados (TAC). Los test de medida consisten en la selección de informatizada de los ítems que puedan medir mejor la habilidad de un individuo.

Documentos recomendados

Priscilla Borges, TRI: A teoria por trás do novo Enem, octubre 4 de 2010.

Notas y referencias

↑ Gerardo Prieto y Ana R. Delgado, Análisis de un test mediante el modelo de Rasch, Psicothema 2003, vol. 15 nº 1, pp. 94-100, ISSN 0214 - 9915 CODEN PSOTEG.
↑ John Michael Linacre, "Diseño de mejores pruebas, utilizando la Técnica de Rasch", Ponencia Magistral de III Foro Nacional de Evaluación Educativa, 29 de octubre de 1998, Veracruz, México, MESA Memo # 68, 1998.

Véase también

Teorema de De Finetti
Graduate Management Admission Test (en español)

Referencias externas

NAEP - National Assessment of Educational Progress, Institute of Education Sciences.
ETS - Educational Testing Service.
CITO o C¿TO - Institute for Educational Measurement.

[1] Gerardo Prieto y Ana R. Delgado, Análisis de un test mediante el modelo de Rasch, Psicothema 2003, vol. 15 nº 1, pp. 94-100, ISSN 0214 - 9915 CODEN PSOTEG.

[2] John Michael Linacre, "Diseño de mejores pruebas, utilizando la Técnica de Rasch", Ponencia Magistral de III Foro Nacional de Evaluación Educativa, 29 de octubre de 1998, Veracruz, México, MESA Memo # 68, 1998.

[1]

[2]