Prueba de esquemas de Winograd

La prueba de esquemas de Winograd (en inglés: Winograd Schema Test; abreviado como WSC), también Test de esquemas de Winograd, es una prueba de inteligencia artificial propuesta por Hector Levesque, científico computacional de la Universidad de Toronto, en 2014. Esta prueba fue diseñada como una mejora al Test de Turing y consiste en un cuestionario de preguntas con múltiples respuestas provenientes de los esquemas ideados por Terry Winograd, también científico computacional, de la Universidad de Stanford.^[1]

A primera vista, las preguntas de los esquemas de Winograd parecen requerir, simplemente, de la resolución de anáforas; de esta manera, la máquina debe identificar el antecedente de un pronombre ambiguo en una declaración. Esto lo hace una tarea de procesamiento de lenguaje natural, pero Levesque asegura que para resolver los esquemas de Winograd hace falta, también, emplear conocimiento y sentido común.^[2]

En 2016, la empresa desarrolladora de software, Nuance Communications, anunció que patrocinaría una competencia anual con un premio de 25 mil dólares para el sistema que más se acercara al desempeño humano en un reto de esquemas de Winograd.^[3] Sin embargo, el premio no ha sido ofertado nuevamente.

Historia[editar]

La prueba de esquemas de Winograd fue propuesta con el mismo espíritu que el Test de Turing, propuesto por Alan Turing en 1950, la cual posee un importante rol en la filosofía de la inteligencia artificial. Turing propuso que en vez de debatir sobre una definición de inteligencia, la ciencia computacional debería preocuparse por demostrar a existencia de comportamiento inteligente a través de pruebas. No obstante, desde entonces, el Test de Turing ha sido sometido a grandes críticas, especialmente desde que, en 2014, se alegó que un robot llamado Eugene había pasado la prueba.^[4]

Eugene Goostman[editar]

El 7 de junio de 2014, un programa de computadora llamado Eugene Goostman fue declarado como la primera IA en haber pasado el Test de Turing en una competición llevada cabo por la Universidad de Reading en Inglaterra. En la competencia Eugene fue capaz de convencer a 33% de los jueces de que hablaban con un niño ucraniano de 13 años. Esta supuesta victoria despertó controversias sobre el Test de Turing. Los críticos reclamaron que Eugene pasó la prueba sencillamente por engañar a los jueces y tomando ventajas de su supuesta identidad. Por ejemplo, se saltó preguntas importantes mediante chistes y cambiando temas. Aun así, el jurado perdonaba sus equivocaciones porque Eugene se identificó como un adolescente cuyo idioma nativo no era el inglés.^[5]^[6]

Debilidades del Test de Turing[editar]

Levesque identifica diversos problemas del Test de Turing:^[2]^[7]

Engaño: La máquina es forzada a construir una identidad falsa o a evadir las preguntas, lo cual no forma parte de la inteligencia.
Conversación: Mucha interacción puede ser considerada como conversación legítima —juegos de palabras, chistes, desvíos— sin que ello requiera razonamiento inteligente.
Evaluación: Los seres humanos que juzgan a la máquina cometen equivocaciones y en ocasiones difieren sobre los resultados.

Esquemas de Winograd[editar]

Origen[editar]

El primer ejemplo citado de un esquema de Winograd se debe a Terry Winograd:^[8]

The town councillors refused to give the angry demonstrators a permit because they [feared/advocated] violence.

Los concejales de la ciudad negaron a los manifestantes la autorización porque ellos [temían/defendían] la violencia.

El tema central es si el pronombre "they/ellos" se refiere a los concejales o a los manifestantes, y elegir entre las dos instancias del esquema cambia la respuesta. La respuesta es inmediata para un lector humano, pero es difícil de emular en máquinas. Levesque sostiene, siguiendo las conclusiones de Winograd, que el conocimiento juega una función central en estos problemas: la respuesta a este esquema está relacionado con nuestro entendimiento de las relaciones típicas de comportamiento de concejales y manifestantes.^[9]

Desde la fecha en que se propuso el Test de esquemas de Winograd, Ernest Davis, un profesor en Universidad de Nueva York, ha compilado una lista de alrededor de 140 esquemas de Winograd, provenientes de diversas fuentes, como ejemplos del tipo de preguntas que pueden aparecer en un Test de esquemas de Winograd.^[10]

Descripción formal[editar]

Una pregunta para la prueba de esquemas de Winograd consta de tres partes:

Una oración o frase breve que contiene lo siguiente:
- Dos frases nominales (sustantivos) de la misma clase semántica (masculino, femenino, neutro, o un grupo de personas u objetos),
- Un pronombre ambiguo que permita referir a cualquiera de los sustantivos anteriores, y
- Una palabra especial y otra alternativa, de tal naturaleza que si si la palabra especial es reemplazada con la alternativa, el sentido natural del pronombre cambia.
Una pregunta que pregunta la identidad del pronombre ambiguo, y
Dos opciones de respuesta que correspondan a los sustantivos en cuestión.

Los esquemas serán dados a la máquina de una manera estandarizada incluyendo las opciones de respuesta. De esta manera se genera un problema de decisión binaria.

Ventajas[editar]

La prueba de esquemas de Winograd tiene el siguientes ventajas:

Es necesario poseer conocimiento y sentido común para solucionar las preguntas.
Pueden diseñarse esquemas de dificultad variable que vayan desde relaciones sencillas de causa y efecto a narrativas complejas de acontecimientos.
Pueden ser construidos para probar el razonamiento en ámbitos concretos (por ejemplo: razonamiento psicológico, social o espacial).
No necesidad de jueces humanos.^[4]

Inconvenientes[editar]

La principal desventaja la prueba de esquemas de Winograd es el desarrollo de las preguntas. Estas necesitan ser cuidadosamente creadas para asegurarse de que requieren sentido común para ser respondidas.

Esto conlleva dos posibilidades: o las respuestas son "demasiado obvias" o "no son suficientemente obvias".^[4]

En el primer caso nos encontramos con respuestas que pueden ser determinadas por lo que en lingüística se conoce como "restricciones seleccionales", esto es, los predicados deducen y limitan el contenido semántico de su argumento. Un ejemplo de esto, usado por el propio Lavesque, sería el siguiente:^[4]

El auto de carreras pasó zumbando junto al camión escolar porque iba muy [rápido/lento]. ¿Quién iba [rápido/lento]?

Debido a la fuerte relación entre velocidad-autos de carreras, el predicado ofrece una pista del sujeto del que se habla sin necesidad de hacer una valoración semántica del esquema en su totalidad.

En el segundo caso, esto es, en esquemas no tan obvios en que la respuesta pueda fácilmente atribuirse a uno u otro sujeto:^[4]

Frank se sintió [alegre/enojado] cuando Bill le contó que había ganado la competición. ¿Quién ganó la competición?

Eventos[editar]

En 2016, la empresa Nuance Communications patrocinó una competencia anual, ofreciendo un premio de 25 mil dólares a la inteligencia artificial que pudiera pasar una prueba de esquemas de Winograd en al menos un round de 60 preguntas. El premio nunca fue otorgado y en 2018 Nuance retiró el patrocinio del reto.^[11]

El reto del esquema de Winograd de 2016 Winograd se llevó a cabo el 11 de julio, durante la International Joint Conference on Artificial Intelligence de aquel año. Hubo 4 contendientes. El mayor puntaje obtenido fue de 58% de respuestas correctas, por el equipo de Quan Liu, de la Universidad de Ciencia y Tecnología de China.^[12] No obstante, las reglas del reto establecían que debía obtenerse un porcentaje de aciertos de 90%, por lo que el premio no fue concedido. El comité organizador de aquel año fue Leora Morgenstern, Ernest Davis y Charles Ortiz.

Una versión del Test de esquemas de Winograd forma parte de la colección de preguntas de referencias del estándar de evaluación de lenguaje GLUE (General Language Understanding Evaluation) en lo que se refiere a comprensión de lenguaje natural.^[13]

Referencias[editar]

↑ Ackerman, Evan (29 de julio de 2014). «Can Winograd Schemas Replace Turing Test for Defining Human-level AI». IEEE Spectrum. Consultado el 29 de octubre de 2014.
↑ ^a ^b Levesque, H. J. (2014). «On our best behaviour». Artificial Intelligence 212: 27-35. doi:10.1016/j.artint.2014.03.007.
↑ «Nuance announces the Winograd Schemas Challenge to Advance Artificial Intelligence Innovation». Business Wire. 28 de julio de 2014. Consultado el 9 de noviembre de 2014.
↑ ^a ^b ^c ^d ^e Levesque, Hector; Davis, Ernest; Morgenstern, Leora (2012). «The Winograd Schema Challenge». Proceedings of the Thirteenth International Conference on Principles of Knowledge Representation and Reasoning. Archivado desde el original el 20 de junio de 2022. Consultado el 29 de octubre de 2014.
↑ Ackerman, Evan (Oct 2014). «A Better Test Than Turing». IEEE Spectrum 51 (10): 20-1. doi:10.1109/mspec.2014.6905475.
↑ Lewis, Tanya. «Brainy Machines Need An Updated IQ Test, Expert Say». Live Science. Consultado el 28 de octubre de 2014.
↑ Michael, Julian (18 de mayo de 2015). The Theory of Correlation Formulas and Their Application to Discourse Coherence. UT Digital Repository. p. 6.
↑ Winograd, Terry (Jan 1972). «Understanding Natural Language». Cognitive Psychology 3 (1): 1-191. doi:10.1016/0010-0285(72)90002-3. Consultado el 4 de noviembre de 2014.
↑ Levesque, H. J. (2014). «On our best behaviour». Artificial Intelligence 212: 27-35. doi:10.1016/j.artint.2014.03.007.
↑ Davis, Ernest. «A Collection of Winograd Schemas». cs.nyu.edu. NYU. Consultado el 30 de octubre de 2014.
↑ «Winograd Schema Challenge». CommonsenseReasoning.org. Consultado el 1 de enero de 2015.
↑ Liu, Quan; Jiang, Hui; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2016). «Commonsense Knowledge Enhanced Embeddings for Solving Pronoun Disambiguation Problems in Winograd Schema Challenge». arXiv:1611.04146 [cs.AI].
↑ «GLUE Benchmark». GlueBenchmark.com. Consultado el 30 de julio de 2019.

Datos: Q23679940

[ieee_web-1] Ackerman, Evan (29 de julio de 2014). «Can Winograd Schemas Replace Turing Test for Defining Human-level AI». IEEE Spectrum. Consultado el 29 de octubre de 2014.

[Levesque14-2] Levesque, H. J. (2014). «On our best behaviour». Artificial Intelligence 212: 27-35. doi:10.1016/j.artint.2014.03.007.

[nuance-3] «Nuance announces the Winograd Schemas Challenge to Advance Artificial Intelligence Innovation». Business Wire. 28 de julio de 2014. Consultado el 9 de noviembre de 2014.

[Hector-4] Levesque, Hector; Davis, Ernest; Morgenstern, Leora (2012). «The Winograd Schema Challenge». Proceedings of the Thirteenth International Conference on Principles of Knowledge Representation and Reasoning. Archivado desde el original el 20 de junio de 2022. Consultado el 29 de octubre de 2014.

[IEEE_journal-5] Ackerman, Evan (Oct 2014). «A Better Test Than Turing». IEEE Spectrum 51 (10): 20-1. doi:10.1109/mspec.2014.6905475.

[live_science-6] Lewis, Tanya. «Brainy Machines Need An Updated IQ Test, Expert Say». Live Science. Consultado el 28 de octubre de 2014.

[Michael15-7] Michael, Julian (18 de mayo de 2015). The Theory of Correlation Formulas and Their Application to Discourse Coherence. UT Digital Repository. p. 6.

[UNL-8] Winograd, Terry (Jan 1972). «Understanding Natural Language». Cognitive Psychology 3 (1): 1-191. doi:10.1016/0010-0285(72)90002-3. Consultado el 4 de noviembre de 2014.

[Levesque142-9] Levesque, H. J. (2014). «On our best behaviour». Artificial Intelligence 212: 27-35. doi:10.1016/j.artint.2014.03.007.

[collection-10] Davis, Ernest. «A Collection of Winograd Schemas». cs.nyu.edu. NYU. Consultado el 30 de octubre de 2014.

[CR-11] «Winograd Schema Challenge». CommonsenseReasoning.org. Consultado el 1 de enero de 2015.

[12] Liu, Quan; Jiang, Hui; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2016). «Commonsense Knowledge Enhanced Embeddings for Solving Pronoun Disambiguation Problems in Winograd Schema Challenge». arXiv:1611.04146 [cs.AI].

[13] «GLUE Benchmark». GlueBenchmark.com. Consultado el 30 de julio de 2019.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]