Métodos de evaluación para la traducción automática

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

Introducción[editar]

Una vez realizada una traducción sobre un texto es necesario comprobar la calidad de la misma. Dependiendo de la finalidad a la que está dirigida la traducción, será necesario un nivel de calidad distinto. Por ejemplo, en un sistema que traduzca frases a varios idiomas dentro de en un programa de chat multilingüe, será suficiente con una traducción que permita entender el texto resultante. En otros casos, como en la traducción de textos dentro de una empresa, la calidad deberá ser mucho mayor.

No existe una medida perfecta para evaluar una traducción, por lo que se utilizan distintos métodos, cada uno con sus ventajas y desventajas.


Métodos objetivos[editar]

Pertenecen a esta clase los métodos en la que no sea necesaria la valoración de la traducción por un ser humano.

WER (word error rate) 
mínimo número de sustituciones, inserciones y borrados que se deben de realizar para corregir la frase generada.
PER (position-independent word error rate) 
mejora de WER para que sea independiente de la posición de las palabras dentro de la frase.
mWER (multi-reference word error rate) 
se calcula WER entre la frase generada y la más similar de entre un conjunto de frases de referencia. Esta medida resulta más fiable que WER. Si se utiliza una sola frase de referencia, ésta puede diferir mucho de la traducción de nuestro sistema debido a las libertades a la hora de traducir propias de un traductor humano. Por ello, al escoger entre varias traducciones de referencia, se mejoran los resultados obtenidos.
BLEU 
mide la precisión de los ngramas (unigramas, bigramas, trigramas y cuatrigramas) con respecto a un conjunto de traducciones de referencia.
NIST
variación de BLEU en el que se le otorga un mayor peso a los ngramas poco frecuentes.

Métodos subjetivos[editar]

En estos métodos los humanos intervienen en la valoración de la traducción.

SSER (subjective sentence error rate) 
un humano califica la traducción de una frase de 0 a 1. Una calificación de 0 se le da una traducción perfecta, mientras que una de 1 se corresponde una traducción sintáctica y semánticamente incorrecta.
IER (information item error rate) 
las frases de prueba se dividen en items. Un humano examina si la información de cada uno de los items se encuentra presente en la traducción. De esta manera se puede comprobar si siendo la traducción de la frase incorrecta, existen partes de ésta que en cambio sí son correctas.

Véase también[editar]