Bitextor

De Wikipedia, la enciclopedia libre
Ir a la navegación Ir a la búsqueda

Bitextor es una aplicación libre de código abierto que tiene como objetivo la generación de memorias de traducción a partir de sitios web multilingües, que son utilizados como corpus base. Bitextor está publicado bajo licencia GNU GPL v2.

La aplicación descarga todos los ficheros HTML del sitio web indicado por el usuario. Entonces, realiza un preproceso para convertirlos a un formato coherente y adecuado para los siguientes pasos. Seguidamente, se aplica un conjunto de heurísticas (principalmente basadas en la estructura de etiquetas HTML y la longitud de las cadenas de texto) para hacer parejas de ficheros que serán considerados como candidatos a contener el mismo texto en diferentes idiomas. A partir de estos candidatos, se generan las memorias de traducción en formato TMX mediante la biblioteca LibTagAligner, que utiliza las etiquetas HTML y la longitud de los bloques de texto (también) para realizar el alineamiento.

El objetivo de esta herramienta es el de facilitar la obtención de corpus multilingüe a partir de Internet. Bitextor fue desarrollado, en un principio, para facilitar el proceso de entrenamiento de aplicaciones de traducción automática y, concretamente, la de la plataforma Apertium.

Véase también[editar]

Enlaces externos[editar]