Extractores de terminología

De Wikipedia, la enciclopedia libre
(Redirigido desde «Extractores de terminologia»)

Los extractores de terminología[1]​ son herramientas que permiten la identificación y extracción de candidatos a términos de los textos explorados. Estas herramientas están abocadas a generar material para las bases terminológicas y que requieren del análisis y evaluación del usuario para la inclusión definitiva en la base de datos.

Este tipo de herramientas son muy útiles en el entorno de la gestión de la información y del conocimiento —contribuyen a la extracción de palabras claves como posibles candidatos a unidades de indización—, así como en el ámbito de la traducción especializada —poder extraer automáticamente los términos de un texto contribuye a elaborar glosarios específicos—.

Sin embargo, la automatización de la extracción de los términos se enfrenta a problemas consustanciales a la propia naturaleza lingüística de los términos, así como a su variación denominativa. Estos problemas estriban ante todo en identificar y separar los términos de los no términos, tanto simples como compuestos.

Para que un proceso sea automatizable, debe existir un diseño conceptual que represente las fases y estrategias que den la solución a un problema. De esta manera se podrá hacer legible por la máquina. La formalización conceptual puede ser de tipo lingüístico, por ejemplo, mediante el etiquetado previo de los textos para dotarlos de conocimiento morfológico.

Asimismo se puede dotar de conocimiento sintáctico etiquetando los textos para basar una extracción en algoritmos formales de composición gramatical. Esta aplicación, sin embargo, no resuelve los problemas de delimitación de los sintagmas de significación, ya bien sean términos compuestos, ya bien simples.

Las herramientas de extracción de términos integradas en los sistemas de traducción asistida por ordenador son también reflejo de las limitaciones de su aplicación. En este sentido, los extractores fraccionan el problema asistiendo a la solución sólo semiautomática de los vaciados dependiendo siempre de las memorias de traducción. y de la intervención humana.

Referencias[editar]

  1. Oliver, A. and Vàzquez, M. TBXTools: A Free, Fast and Flexible Tool for Automatic Terminology Extraction. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015), 2015, pp. 473–479

Enlaces externos[editar]

  • BioTex, permite extraer términos biomédicos en EN/ES/FR
  • TBXTools, a free tool for automatic terminology extraction