Ir al contenido

Traducción automática estadística

De Wikipedia, la enciclopedia libre

La traducción automática estadística, designada a veces por las expresiones Stat MT o SMT (del inglés Statistical Machine Translation), es un paradigma de traducción automática donde se generan traducciones basadas en modelos estadísticos y de teoría de la información cuyos parámetros se obtienen del análisis de corpus de textos bilingües. El enfoque estadístico contrasta con los enfoques tradicionales como la traducción automática basada en reglas y la basada en ejemplos.

Las primeras ideas de la traducción automática estadística fueron introducidas por Warren Weaver en 1949 Tejedor,[1]​ incluyendo las ideas de la aplicación de la teoría de la información de Claude Shannon. La traducción automática estadística fue reintroducida en 1991 por investigadores de la Thomas J. Watson Research Center de IBM[2]​ y ha contribuido al resurgimiento significativo del interés por la traducción automática en los últimos años. Hasta 2016 fue, con mucho, el método de traducción automática más estudiado, siendo substituido por la aplicación de redes neuronales de traducción automática.

Ventajas sobre otros métodos

[editar]

Los beneficios de la traducción estadística sobre la traducción tradicional son:

  • Un mejor uso de los recursos
    • Hay mucho lenguaje natural en formato legible para máquinas.
    • Generalmente, los sistemas SMT no están adaptados a ningún par específico de idiomas.
    • Los sistemas de traducción basada en reglas requieren un desarrollo manual de reglas lingüísticas, lo que puede ser costoso, y que a menudo no se generaliza a otros idiomas.
  • Traducciones más naturales

Bases

[editar]

Las ideas que hay detrás de la traducción automática estadística vienen de la teoría de la información. Esencialmente, el documento se traduce en la probabilidad de que una cadena de la lengua nativa (por ejemplo, inglés) sea la traducción de una cadena en la lengua extranjera (por ejemplo, francés). Generalmente, estas probabilidades se calculan utilizando técnicas de estimación de parámetros.

El Teorema de Bayes se aplica a , la probabilidad de que la cadena del idioma extranjero produzca la cadena nativa para conseguir , donde el modelo de traducción es la probabilidad de que la cadena nativa sea la traducción de la cadena extranjera, y el modelo de lengua es la probabilidad de ver aquella cadena nativa. Matemáticamente hablando, encontrar la mejor traducción se consigue escogiendo aquella que dé la probabilidad más alta:

.

Para una aplicación rigurosa de éste se tendría que realizar una búsqueda exhaustiva por pasar por todas las cadenas en el idioma nativo. Realizar la búsqueda eficiente es el trabajo de una máquina de decodificación de traducción, que utiliza la cadena extranjera, heurísticas y otros métodos para limitar el espacio de búsqueda y, al mismo tiempo, mantener una calidad aceptable. Este compromiso entre calidad y tiempo de uso también se puede encontrar en la técnica de reconocimiento de voz.

Como los sistemas de traducción no son capaces de almacenar todas las cadenas nativas y sus traducciones, un documento se traduce típicamente frase por frase, pero ni siquiera esto es suficiente. Los modelos de lenguaje suelen aproximarse por modelos de alisado de n-grama y los enfoques similares se han aplicado a los modelos de traducción, pero existe una complejidad adicional debido a la longitud de frase y de diferentes órdenes de palabras en los idiomas.

Los modelos de traducción estadística estuvieron inicialmente basados en palabras, (Modelos 1-5 de IBM Ocultos de Markov Model de Stephan Vogel[3]​ y el Modelo 6 de Franz-Joseph Och[4]​), pero se lograron avances significativos con la introducción de frases, basada en modelos.[5]​ Un trabajo reciente ha incorporado sintaxis o estructuras cuasi-sintácticas.[6]

Breve historia

[editar]

Las primeras ideas de traducción automática estadística fueron introducidas por Warren Weawer en 1949 (W. Weaver 1955), incluyendo las ideas de aplicar la teoría de la información de Claude Shannon. Su retorno a escena se produce en 1991, con el sistema CANDIDE, desarrollado por un grupo de investigadores del Thomas J. Watson Center de IBM en Nueva York (Brown et al. 1990). Tras el éxito logrado mediante técnicas estocásticas en el reconocimiento del habla, el grupo decidió probar suerte en la traducción. El enfoque se planteó desde el postulado de no usar información para el análisis y la generación que no fuera estadística. El experimento se realizó sobre el corpus Hansard de las Actas del Parlamento canadiense (unos tres millones de oraciones en inglés y francés). Primero se alinearon oraciones, grupos de palabras y palabras sueltas, para después calcular las probabilidades de que una palabra de una oración en una lengua se correspondiera con otras palabras en la traducción. Los resultados sorprendieron a los propios investigadores, ya que casi la mitad de las oraciones traducidas eran exactamente como las contenidas en el texto original o tenían el mismo sentido aunque con palabras distintas. El sistema no se llegó a comercializar, pero supuso un hito histórico en la reorientación de las investigaciones.

Entre las aportaciones más recientes cabe destacar la del grupo ISI de la University of Southern California, que desarrolla EGYPT, un paquete de software para construir sistemas basados en la estadística a partir de corpus bilingües.

Desde 2006, y hasta la publicación por parte de Google de su artículo académico y la consiguiente "fiebre neuronal" desde 2016, la traducción estadística fue el paradigma de traducción automática más estudiado.

Funcionamiento

[editar]

Traducción basada en palabras (Word-Based translation)

[editar]

En la traducción basada en palabras, la unidad esencial de la traducción es una palabra de una lengua natural. Normalmente, el número de palabras en frases traducidas son diferentes, por palabras compuestas, morfología y modismos. La relación de la longitud de las secuencias de palabras traducidas se llama fecundidad, que indica el número de palabras extranjeras que cada palabra nativa produce. Necesariamente se asume la teoría de la información, que nos dice que cada uno cubre el mismo concepto. En la práctica esto no es realmente verdad. Por ejemplo, la palabra inglesa corner puede ser traducida en español por rincón o bien por esquina, dependiendo de si es en el sentido de su ángulo interno o externo.

La traducción simple basada en palabras no se puede traducir entre lenguas de diferente origen. Sistemas de traducción basados en palabras relativamente simples pueden ser hechos para hacer frente a altas tasas de fecundidad, pero podrían asignar una sola palabra a varias palabras, pero no al revés[cita requerida]. Por ejemplo, si quisiéramos traducir del francés al inglés, cada palabra en inglés podría producir cualquier cantidad de palabras francesas, y no al revés. No hay forma de agrupar dos palabras en inglés para producir una sola palabra francesa.

Un ejemplo de un sistema de traducción basado en la palabra es el paquete de distribución libre GIZA++ (actualmente de licencia GPL), que incluye el programa de entrenamiento para modelos de IBM y los modelos HMM y 6.[4]

La traducción basada en la palabra no se usa ampliamente hoy en día, los sistemas basados en frases son más comunes. La mayor parte de sistemas basados en la frase siguen utilizando GIZA++ para alinear el corpus. Los alineamientos se utilizan para extraer frases o deducir reglas de sintaxis.[7]​ Y las palabras que coinciden en la bi-texto sigue siendo un problema discutido activamente en la comunidad. Debido al predominio de GIZA++, ahora hay varias implementaciones de distribución en línea.[8]

Traducción basada en frases (Phrase-Based translation)

[editar]

En la traducción basada en frases se han intentado reducir las restricciones producidas por la traducción basada de palabras traduciendo secuencias de palabras a secuencias de palabras, donde las longitudes de la frase nativa y la extranjera pueden ser diferentes.

A las secuencias de palabras se les suele llamar bloques o frases, pero típicamente no son frases lingüísticas sino frases encontradas en el corpus utilizando métodos estadísticos.

Se ha demostrado que la restricción de las frases a frases lingüísticas (grupos sintácticos de palabras, ver categorías sintácticas) disminuye la calidad de la traducción[9]

Frases hechas

[editar]

Dependiendo de los cuerpos utilizados, algunos modismos no se pueden traducir "idiomáticamente". Por ejemplo, usando el corpus bilingüe Hansard de Canadá, "oye" (en inglés, "hear") casi siempre se traducirá como "¡Bravo!" (en francés, "Bravo!") ya que en el Parlamento "¡Oye, oye!" (en inglés, "Hear, hear!) aparece traducido en el corpus como "¡Bravo!". [10]

Morfología

[editar]
Diferentes órdenes de palabras[11]
[editar]

El orden de las palabras en una frase difiere de lengua a lengua. Podemos hacer una clasificación tomando el orden típico de palabras de una lengua, fijándonos en el sujeto (S), verbo (V) y objeto (O) de una oración. Así, podemos hablar, por ejemplo, de lenguas tipo SVO (en la frase típica el sujeto encabeza la oración, sigue el verbo y finalmente se especifica el objeto), o de lenguas VSO, por poner los ejemplos más habituales. También hay diferencias adicionales en este orden de palabras: por ejemplo, en qué posición se colocan los modificadores del sustantivo en cuanto al propio sustantivo -la expresión española "viaje inesperado" se convertiría en inglés en "unexpected journey", donde se invierte el orden de nombre y adjetivo-; diferencias en el orden de palabras en expresiones afirmativas, negaciones, preguntas o imperativos; aparición de verbos auxiliares en distintos puntos de la oración. Así, en francés, podríamos tener la frase afirmativa "Il conduit un camion", que se traduciría al español palabra por palabra como (Él) conduce un camión. Sin embargo, si cambiamos la frase a "Il ne conduit pas un camion", "Conduit-il un camion?" o "Conduis un camion!" (traducibles como (Él) no conduce un camión, ¿Conduce (él) un camión? y ¡Conduce un camión!) vemos cambios en el orden de palabras (pasamos de SVO a VSO en preguntas, por ejemplo, y el sujeto se omite en las imperativas, además de aparecer partículas de negación a ambos lados del verbo).

En reconocimiento de voz, la señal de voz y la representación textual correspondiente se puede asignar a cada uno en otros bloques en orden. Esto no es siempre el caso con el mismo texto en dos idiomas. Para SMT, el traductor automático sólo puede administrar pequeñas secuencias de palabras, y orden de las palabras tiene que ser pensada por el diseñador del programa. Los intentos de soluciones han incluido nuevos pedidos de modelos, donde se adivina una distribución de cambios de ubicación para cada elemento de la traducción del bi-texto alineados. Diferentes cambios de ubicación puede ser clasificados con la ayuda del modelo de lenguaje y el mejor puede ser seleccionado.

Sintaxis

[editar]

De vocabulario palabras (OOV)

[editar]

Sistemas SMT almacenar formularios diferentes palabras como símbolos independientes sin ninguna relación entre sí y formas de la palabra o frases que no estaban en los datos de entrenamiento no se pueden traducir. Esto podría ser debido a la falta de datos de entrenamiento, los cambios en el dominio humano, cuando se utilice el sistema, o las diferencias en la morfología.

Desafíos

[editar]

Los desafíos que enfrenta la traducción automática estadística incluyen:

Orden diferente de palabras

[editar]

El orden de las palabras en los distintos idiomas no es el mismo. Se puede hacer un poco de clasificación nombrando el orden típico de sujeto (S), verbo (V) y objeto (O) en una frase y se puede hablar, por ejemplo, de lenguas SVO o VSO. Hay también diferencias adicionales, por ejemplo, en el orden en que se sitúan los modificadores de los sustantivos.

En el reconocimiento de la voz se pueden enlazar la señal del discurso y la representación textual en bloques ordenados. No siempre pasa lo mismo con el mismo texto en dos lenguas. Para la SMT el modelo de traducción es solamente capaz de traducir pequeñas secuencias de palabras y el orden de las palabras se tiene que tener en cuenta de algún modo. La solución típica han sido los modelos de reordenación, donde una distribución de cambios de lugar para cada elemento de traducción se aproxima a la alineación de bi-texto. Los cambios de lugar se pueden clasificar con la ayuda del modelo de la lengua y se pueden seleccionar los mejores.

Palabras fuera del vocabulario (OOV, del inglés out of vocabulary)

[editar]

Los sistemas de SMT almacenan formas léxicas diferentes como símbolos separados sin ninguna relación entre ellas y las formas léxicas o frases que no estaban en los datos de formación no pueden ser traducidos. Las principales razones de que existan las palabras fuera de vocabulario son la limitación de datos de formación, los cambios de campo y la morfología.

Véase también

[editar]

Referencias

[editar]
  1. W. (1955). Traducción (1949). En: Traducción automática de las lenguas, MIT Press, Cambridge, MA.
  2. P. Brown, S. Della Pietra, V. Della Pietra, y R. Mercer (1993). Las matemáticas de la traducción automática estadística: estimación de parámetros. Lingüística Computacional,19 (2 ), 263-311.
  3. S. Vogel, H. y Ney C. Tillmann. 1996. Basados en HMM Palabra Alineación en Statistical Translation. En Coling '96: La 16 ª Conferencia Internacional de Lingüística Computacional, pp. 836-841, Copenhague, Dinamarca.
  4. a b F. Och y Ney H. (2003). Una comparación sistemática de los diferentes modelos estadísticos de alineación. Lingüística Computacional, 29 (1) :19-51
  5. P. Koehn, F. J. Och, y Marcu D. (2003). frase estadísticos basados traducción. En Actas de la Conferencia Conjunta sobre tecnologías del lenguaje humano y la Reunión Anual del Capítulo de América del Norte de la Asociación de Lingüística Computacional (HLT /> NAACL ).
  6. D. Chiang (2005). Un modelo jerárquico basado en la frase de la traducción automática estadística. En Actas de la 43 Reunión Anual de la Asociación de Lingüística Computacional (ACL'05 ).
  7. P. Koehn, H. Hoang, Birch A., C. Callison-Burch, Federico M., N. Bertoldi, B. Cowan, W. Shen, C. Morán, R. Zens, C. Dyer, O. Bojar, A. Consta1ntin, E. Herbst. 2007. Moisés: Kit de herramientas de código abierto para la traducción automática estadística. ACL 2007, Sesión de demostración, Praga, República Checa
  8. P. Gao, S. Vogel, "Las implementaciones paralelas de herramienta de alineación de Word", Ingeniería de Software, Pruebas, y Aseguramiento de Calidad para el Procesamiento del Lenguaje Natural, pp. 49-57, junio de 2008
  9. Philipp Koehn, Franz Josef Och, Daniel Marcu: Frase de traducción estadística basada en ( 2003)
  10. W. Hutchens J. y H. Somers. (1992). Una introducción a la traducción automática, 18.3:322. ISBN 0-12-36280-X
  11. Sologuren Insúa, Enrique; Castillo Fadić, María Natalia (7 de julio de 2018). «El orden de palabras en los estudios gramaticales: un recorrido a través de diferentes perspectivas lingüísticas». Nueva Revista del Pacífico (68): 123-146. Consultado el 7 de noviembre de 2018. 

Enlaces externos

[editar]