Traducción automática mediante lengua intermedia

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

La traducción automática mediante lengua intermedia es una de las estrategias clásicas de traducción automática. La idea básica de este método indirecto de traducción es representar el texto inicial en una lengua intermedia abstracta e independiente de las dos lenguas (inicial y final) para posteriormente traducirlo a la lengua destino.

Figura 1. Esquema de las lenguas que intervienen en el proceso de traducción utilizando una lengua puente.

Historia[editar]

Las primeras ideas de traducción automática utilizando una lengua intermedia aparecieron ya en el siglo XVII, con Descartes y Leibniz. Ambos formularon teorías sobre la elaboración de diccionarios basados en códigos numéricos universales. Cave Beck, Athanasius Kircher y Johann Joachim Becher, por su parte, trabajaron en desarrollar una lengua universal sin ambigüedades basada en principios lógicos y símbolos icónicos. En 1668, John Wilkins elaboró una interlingua en Essay towards a Real Character and a Philosophical Language.

A lo largo de los siglos XVIII y XIX aparecieron muchas otras propuestas de lenguas internacionales, la más conocida de las cuales es el Esperanto.

De cualquier modo, la idea de una lengua universal aplicada a la traducción automática no apareció desde sus inicios, ya que se empezó a trabajar con pares de lenguas. Fue durante la década de 1956 a 1966 cuando empezaron a estudiarse algunas ideas en Cambridge dirigidas por Margaret Masterman, en Milán por Silvio Ceccato y en leningrado por Nikolai Andrev.

Durante la década de 1970 cabe destacar los estudios realizados en Grenoble que buscaban traducir trabajos matemáticos y físicos del ruso al francés, aunque no era puramente mediante una lengua intermedia. Un trabajo similar era el que se desarrollaba en texas (METAL).

En la década de 1980 toman vigencia los sistemas basados en interlingua y los Sistemas Basados en el Conocimiento, con múltiples investigaciones sobre el tema. El factor común a todas estas investigaciones es que parten de la idea de que es necesaria la comprensión del texto si se quiere conseguir una traducción de calidad. Para ello, la traducción debe estar basada a la vez en el conocimiento lingüístico y del dominio concreto de la aplicación, intentando la modularidad entre ambos aunque marcando el énfasis sobre éste último. Las investigaciones de mayor importancia a partir de esta década fueron el DLT en Utrecht y el sistema Fujitsu en Japón. DLT trabajaba con una modificación del esperanto.

Traducción utilizando una lengua intermedia[editar]

Figura 2. a) Grafo de traducciones necesarias en el caso de traducción directa (se necesitan 12 diccionarios de traducción; b) Grafo de traducciones necesarias utilizando una lengua puente (son necesarios únicamente 8 módulos de traducción).

La traducción utilizando una lengua intermedia es un sistema que abarca el análisis de las oraciones de un texto escrito en una lengua fuente para imponer en ellas las características morfológicas, sintácticas y semánticas correspondientes a la lengua objetivo/destino, realizando una primera transferencia del texto analizado a una lengua intermedia/puente. Dicha lengua posee todas las características morfológicas, sintácticas y semánticas de los idiomas que serán traducidos, en lugar de traducir directamente de la lengua fuente a la objetivo.

Figura 3: Grafo de traducciones utilizando dos lenguas intermedias.

En ocasiones se usan dos lenguas intermedias para optimizar la traducción, ya que así se posibilita que una de las dos se adecue más a las características de la lengua fuente, resultando una traducción más fiable. La segunda lengua intermedia posee entonces todas las características estructurales de la lengua objetivo, convirtiendo las oraciones de la primera lengua intermedia a otras gramaticalmente más próximas a la lengua objetivo. El segundo lenguaje intermedio utiliza un vocabulario más específico y cercano a la lengua de destino y, en orden para concluir la traducción, extrae los análisis estructurales de las oraciones en lengua objetivo.

Este sistema, pues, está basado en el acercamiento interlingüístico de tal forma que permite optimizar la traducción de un texto original a múltiples idiomas, estructuralmente cercanos, a partir de un solo análisis. Las características del acercamiento interlingüístico garantizan una integración más fácil en los sistemas de idiomas que no se relacionan tipológicamente, entre los cuales no sería posible garantizar una proyección de la información lingüística sin un análisis exhaustivo de la información contextual y/o semántica del mensaje. Durante su desarrollo, la invención consideraba sólo los idiomas más hablados, pero puso especial atención y cuidado en el desarrollo de sistemas válidos que permitieran extensiones a todas las lenguas. Asimismo, dicho sistema es aplicable a la traducción automática de textos, a la gerencia de la base de datos y al reconocimiento de voz.

Proceso de traducción[editar]

En un sistema interlingüe encontramos dos componentes monolingües: el ánalisis de la lengua de origen a interlingua, y la generación de interlingua a lengua de destino. Pero podemos distinguir entre los sistemas interlingua que emplean métodos sintácticos (década 1970, Universidad de Grenoble y Universidad de Texas) y los que se basan en técnicas de inteligencia artificial (desde 1987 en Japón y los trabajos de investigación en las universidades de Southern California y de Carnegie Mellon).

En el primer caso, el esquema de traducción sería el correspondiente a la Figura 1, mientras que el otro serían los sistemas basados en el conocimiento, que siguen el esquema de la Figura 4.

Figura 4: Proceso de traducción en un sistemas basados en el conocimiento.

Los recursos necesarios son, por lo tanto, los siguientes:

  • Lexicones de análisis y generación (dependientes del dominio y las lenguas).
  • Lexicón conceptual (dependiente del dominio). Es la base de datos de conocimiento sobre eventos y entidades comprendidos por el dominio.
  • Reglas de proyección (dependientes del dominio y las lenguas).
  • Gramáticas de análisis y generación (dependientes del dominio y las lenguas)

El problema de los sistemas basados en el conocimiento es que no es viable elaborar bases de datos para dominios que no presenten un alto grado de especificidad. Además, tienen un alto coste computacional.

Ventajas de la traducción automática con interlingua[editar]

La indudable ventaja de esta estrategia es que ofrece robustez y, sobre todo, economía en la traducción en sistemas multilingües. Así, mediante el método tradicional de traducción directa necesitamos un par de módulos traductores para cada pareja de lenguajes (en total N*(N-1) módulos, como se puede apreciar en la Figura 2); mientras que para la traducción mediante lengua intermedia tan solo necesitamos 2*N módulos, ya que cada lenguaje sólo se relaciona con la lengua intermedia.

Debido a tal hecho, el añadir una lengua nueva en nuestro sistema no supone tanto esfuerzo como supondría en un sistema que siguiera un método de traducción directa. Únicamente tendríamos que relacionar la nueva lengua con la intermedia, en lugar de relacionarla con cada una de las lenguas existentes en nuestro sistema.

Desventajas de la traducción automática con interlingua[editar]

El principal inconveniente de esta estrategia es la dificultad de definir el lenguaje intermedio. Éste debería reunir las siguientes características:

  • Abstracto
  • Independiente de las lenguas origen y destino

Cuanto mayor sea el número de lenguas y más distintas, más rico deberá ser el lenguaje intermedio para poder expresar todos los matices. Además, para obtener una traducción de calidad se debe representar el significado del texto, y no una transformación de la estructura superficial de él sin comprenderlo.

Otro problema es la complejidad de extraer del texto original la información adecuada para generar la representación intermedia y generar el texto final a partir de ella, ya que existen múltiples posibilidades dentro de la lengua final.

A todo ello debemos sumarle la pérdida de información que supone recurrir a dos traducciones en lugar de una directa y el incremento de tiempo necesario debido a que ambas traducciones deben realizarse de forma secuencial.

Conclusiones[editar]

La traducción automática puede no traducir perfectamente una lengua debido a fallos sintácticos, pero permite a los lectores entender el significado global de un documento.

A pesar de tener distintas ventajas, como menos esfuerzo y mayor modularidad, el uso de una lengua intermedia en la traducción automática implica algunos inconvenientes. La pérdida de información como resultado de dos traducciones en el camino de transformación de la lengua origen a la de destino y el incremento del tiempo de traducción producto de la necesidad de realizar dichas traducciones secuencialmente, son sus principales problemas.

Véase también[editar]