Traducción automática basada en el contexto

Traducción Automática Basada en el Contexto o Context-Based Machine Translation (CMBT) és una técnica de traducción automática desarrollada por la empresa Meaningful Machines.

Hasta hace poco el mundo de la traducción automática se ha desarrollado en dos vías principales: las basadas en estadística y el texto paralelo y las basadas en reglas. No obstante, recientemente han aparecido nuevas ideas dispuestas a revolucionar esta área, como la explicada aquí.

Esta técnica difiere de otros métodos en que no precisa ni de reglas ni de texto paralelo para hacer la traducción. Además CMBT ofrece dos ventajas importantes derivadas de su funcionamiento: una mayor precisión debida al mayor uso de la palabra en un determinado contexto, y una mayor facilidad de adición de pares de idiomas debido a la facilidad para incorporar una cantidad ingente de texto en el idioma destino (con otras técnicas se precisan los servicios de un lingüista).

Descripción del proceso[editar]

Introducción[editar]

La idea básica consiste en ir cogiendo grupos de palabras de cierta longitud N (entre 4 y 8) y buscar todas las posibles traducciones mediante un diccionario bilingüe de gran capacidad. De esas posibilidades se seleccionan las que más sentido tienen. Repitiendo el proceso (cogiendo de la segunda palabra hasta la (N+1)-ésima) se obtiene un nuevo conjunto de traducciones. Es aquí donde, buscando coincidencias entre este último conjunto y el anterior, se obtiene una traducción sensible al contexto.

Preproceso[editar]

Lo primero que debe hacerse es disponer del diccionario bilingüe y del corpus monolingüe del lenguaje destino.

Para completar el primero se usa un diccionario comercial cualquiera más algunas reglas morfológicas básicas (número, género, conjugaciones, etc). Para la obtención del segundo se hace una recolección masiva de texto procedente de Internet.

Generación de posibles traducciones y filtro[editar]

Las traducciones se generan en grupos de N palabras seguidas del texto de origen. Estas traducciones se crean sustituyendo cada una de las N palabras por cada una de sus respectivas en el idioma destino gracias al diccionario bilingüe. Este proceso, también conocido como "flooding", produce un gran número de combinaciones, las cuales han de ser filtradas según tengan o no sentido alguno.

El filtrado de las traducciones se realiza buscando el mayor número de coincidencias con frases del corpus del lenguaje destino. Es de suponer, pues, que solo se seleccionarán frases idénticas o muy similares a las del corpus, las cuales evidentemente tendrán sentido.

El proceso se repite moviendo la ventana de las N palabras a traducir. Así pues, primero se obtienen las traducciones posibles de las N primeras palabras, después de la segunda a la N+1, de la tercera a la N+3, etc.

Contextualización[editar]

En este punto, disponemos de varios grupos de posibles traducciones (uno por ventana), las cuales parten de grupos de N palabras del texto original que incluyen solapamientos entre ellos (ya que la ventana se mueve de palabra en palabra). Para decidir cual es la mejor opción de cada grupo, y en consiguiente la mejor traducción final, se comparan mediante solapamientos (overlapping) cada posible traducción de un grupo con las de los grupos con ventanas anteriores y posteriores, y se escogen las que maximizan el número de coincidencias de palabras individuales.

Generación y uso de sinónimos[editar]

Si a la hora de traducir una palabra en la fase anterior se han producido fallos parciales o totales de overlapping, es decir que hay una o más palabras sin coincidencias, o si no aparece en el diccionario bilingüe, se recurre a la generación de palabras sinónimas.

En el primer caso, para cada posible traducción de un grupo, se aíslan los contextos (las palabras anteriores y las palabras posteriores) de la palabra en cuestión y se sustituye esta por todas las palabras del corpus que puedan coincidir en ese contexto. Estos sinónimos pueden ser clasificados según su número de apariciones en el corpus.

En el segundo caso es cuando puede venir bien el disponer de un corpus del idioma origen de la traducción, pero dado que solo va a ser utilizado en esta parte, no es necesario que sea tan amplio como el del idioma destino. La búsqueda de sinónimos es entonces análoga a la del primer caso, buscando las palabras del corpus que puedan tener el mismo contexto.

Fijación del borde[editar]

Con los procesos anteriormente descritos aseguramos una correcta traducción en el interior de las frases, puesto que con la aplicación de los solapamientos aseguramos que la parte intermedia de la traducción es la mejor por coincidencia en la repetición, pero si nos fijamos, hay ciertas zonas en las que, debido al movimiento de la ventana, solamente confirmamos una o muy pocas veces, lo que puede provocar que la traducción pierda calidad en ese punto. Estas zonas concretas son el principio y el final de las frases, los llamados bordes de la frase.

Para evitar posibles pérdidas de calidad en la traducción debido a este hecho, se provee de un proceso de reconfirmación buscando otras oraciones en el idioma fuente en las cuales el principio de la ventana que se está analizando aparece en el interior de dichas oraciones.

Mediante el análisis "flooding" con las frases originales y las palabras contextualizadas, podemos asegurar que sea cual sea la traducción seleccionada es consistente con el contexto, bien sea escogiendo aquellas traducciones que hayan obtenido una mayor coincidencia o aquellas que a pesar de tener menor coincidencia satisfacen más criterios.

Así pues, el mismo proceso es el usado con los finales de frase, y puede ser aplicado a cortes estructurales de la escritura, como por ejemplo frases que rodean comas u otros signos de puntuación.

Con este paso añadimos también, de la misma forma que con el interior de las frases, la confirmación para los extremos tanto inicial como final de la frase, redondeando así la calidad de la traducción de la frase completa.

Calidad de las traducciones[editar]

La calidad de las traducciones se evalúa con la BLEU Metric (BiLingual Evaluation Understudy). Es uno de los métodos más utilizados para este propósito, que reconoce la calidad de la traducción de una lengua a otra, existiendo una gran correlación entre este factor y la opinión que daría un experto. La evaluación se basa en la idea de que cuanto más se parece la traducción a una realizada por lingüistas profesionales mejor es. Se evalúa sobre 1, considerándose que la puntuación de un traductor humano está entre el 0.7 y el 0.85.

Las pruebas realizadas con este sistema comparando los resultados de las mismas traducciones de CBMT con los de SYSTRAN y SDL. En ellas CBMT consiguió en junio de 2006 un 0.6462 en una traducción del español al inglés, usando el sistema prototipo, aún con los recursos incompletos (versión 1.0 del diccionario y solo 52GB de texto indexado).

Para el mismo conjunto de pruebas, SDL obtuvo un 0.5610 y SYSTRAN 0.5551.

En una versión en pruebas más actual CBMT obtuvo un 0.6950. Usando un conjunto de recursos mayor, con un corpus aumentado a partir de texto de la Web y mejorando el diccionario (sin hacer trampas, sin adaptarlo al conjunto de pruebas) añadiendo out-of-vocabulary words (OOV), palabras que por cualquier motivo no aparecen en un diccionario (nombres propios, neologismos...)

Para aportar más referencias sobre la puntuación obtenida en BLEU metric, aunque la comparación no sea muy justa debido a las dificultades de dichos lenguajes, aquí están las puntuaciones que sacó Google en sus pruebas publicadas en el 2005: 0.5137 (Árabe-Inglés) y 0.3531 (Chino-Inglés).

Ejemplos[editar]

Como todo sistema de traducción automática, en la práctica se encuentran casos donde un sistema u otro tienen mayor éxito. En este caso se compara CBMT con SYSTRAN:

Entrada 1: Un coche bomba estalla junto a una comisaría de policía en Bagdad

CBMT: a car bomb explodes next to a police station in baghdad
SYSTRAN: A car pump explodes next to a police station of police in Bagdad

Entrada 2: Hamás anunció este jueves el fin de su cese del fuego con Israel

CBMT: hamas announced thursday the end of the cease fire with Israel
SYSTRAN: Hamas announced east Thursday the aim of its cease fire with Israel

Entrada 3: Un soldado de Estados Unidos murió y otros dos resultaron heridos este lunes por el estallido de un artefacto explosivo improvisado en el centro de Bagdad, dijeron funcionarios militares estadounidenses

CBMT: a united states soldier died and two others were injured monday by the explosion of an improvised explosive device in the heart of baghdad, american military officials said
SYSTRAN: A soldier of the wounded United States died and other two were east Monday by the outbreak from an improvised explosive device in the center of Bagdad, said American mili-tary civil employees

Véase también[editar]

Enlaces externos[editar]

CBMT Paper de Meaningful Machines

Artículo "Me Translate Pretty One Day" de la revista Wired

Datos: Q9089419