BLEU

De Wikipedia, la enciclopedia libre

El BLEU, Evaluación bilingüe suplente (Bilingual Evaluation Understudy, en inglés), es un método de evaluación de la calidad de traducciones realizadas por sistemas de traducción automática. Una traducción tiene mayor calidad cuanto más similar es con respecto a otra de referencia, que se supone correcta. BLEU puede calcularse utilizando más de una traducción de referencia. Esto permite una mayor robustez a la medida frente a traducciones libres realizadas por humanos.

BLEU se calcula normalmente a nivel de frases y halla la precisión en ngramas entre la traducción del sistema y la de referencia. Sin embargo, se utiliza una precisión modificada con el fin de solucionar ciertas deficiencias en la medida.

Precisión modificada[editar]

La precisión de ngramas entre 2 frases es:

Ejemplo de precisión en 1-gramas
Candidata 1 A cat is on the mat
Candidata 2 The cat exists in the board
Referencia The cat is on the table

En este ejemplo la precisión en 1-gramas sería de para la candidata 1 y de para la 2.

La precisión no es una medida adecuada para calcular la similitud entre 2 frases, como se puede ver a continuación:

Ejemplo de mala traducción con una alta precisión
Candidata the the the the the the
Referencia The cat is on the table

En este caso tendríamos una precisión de . Por ello se ha de tener en cuenta el número máximo de ocurrencias de un ngrama en la frase de referencia, siendo éste el límite a la hora de contabilizar las apariciones en la frase candidata. Con esto en cuenta la precisión modificada sería de en este último ejemplo.

Penalización por brevedad[editar]

Si las frases a comparar tienen una longitud muy distinta, no podemos afirmar que sean similares. Si la frase candidata tiene mayor longitud que la de referencia, este aspecto se ve reflejado en la fórmula de precisión modificada anterior. Habrá muchos ngramas en la frase candidata que no aparecerán en la frase de referencia por lo que la precisión será menor. Esto no ocurre cuando la frase de referencia es mucho menor, tal y como se puede observar en el siguiente ejemplo:

Ejemplo de mala traducción con alta precisión
Candidata the the
Referencia The cat is on the table

La precisión modificada sería de y no reflejaría la similitud entre ambas frases. Por ello se introduce un penalizador por brevedad de las frases candidatas.

donde c es la longitud de la frase candidata y r la longitud de la frase de referencia.

Cálculo de BLEU[editar]

Para el cálculo de BLEU se utiliza la media geométrica para los N ngramas que se vayan a utilizar. Cada ngrama tendrá un peso tal que . Típicamente

Referencias[editar]

Véase también[editar]