ISO 16642:2017

De Wikipedia, la enciclopedia libre

Introducción[editar]

Los datos terminológicos se recopilan, administran y almacenan en una amplia variedad de sistemas, generalmente diversos tipos de sistemas de administración de bases de datos, que van desde aplicaciones informáticas personales para usuarios individuales hasta grandes sistemas de bases de datos terminológicos administrados por grandes empresas y agencias gubernamentales. Las bases de datos terminológicas están compuestas por varios tipos de información, llamadas categorías de datos, y pueden adoptar diferentes modelos estructurales. Sin embargo, los datos terminológicos a menudo necesitan ser compartidos y reutilizados en una serie de aplicaciones, y este intercambio se facilita cuando los datos se adhieren a un modelo común. Para facilitar la cooperación y evitar el trabajo duplicado, es importante desarrollar normas y directrices para crear y utilizar colecciones de datos terminológicos (TDC), así como para compartir e intercambiar datos.

Este documento presenta un enfoque modular para analizar TDC existentes y diseñar nuevos. También proporciona un marco para definir lenguajes de marcado terminológicos (TML) que son interoperables. Además, hace referencia a DatCatInfo, un ejemplo de un repositorio de categoría de datos disponible. DatCatInfo es una base de datos en línea de información sobre los tipos de datos que se pueden incluir en las colecciones de datos terminológicos y otros recursos de idiomas.

Estructura del ISO 16642:2017[editar]

El documento está dividido en los siguientes capítulos:

  1. Alcance;
  2. Referencias normativas;
  3. Términos y definiciones;
  4. Enfoque modular;
  5. Modelo genérico para describir datos terminológicos;
  6. Requisitos para el cumplimiento de TMF;
  7. Intercambio e interoperabilidad;
  8. Lenguajes de representación;
  9. Definiendo un TML;
  10. Implementando un TML.

Alcance[editar]

Este documento especifica un marco para representar datos registrados en colecciones de datos terminológicos (TDC). Este marco incluye un metamodelo y métodos para describir lenguajes de marcado terminológicos (TML) específicos expresados en XML. Se definen los mecanismos para implementar restricciones en un TML, pero no las restricciones específicas para TML individuales.

Este documento está diseñado para apoyar el desarrollo y uso de aplicaciones informáticas para datos terminológicos y el intercambio de tales datos entre diferentes aplicaciones. Este documento también define las condiciones que permiten que los datos expresados en un TML se mapeen en otro TML.

Diferencias con el estándar anterior (16642:2003)[editar]

Esta segunda edición cancela y reemplaza la primera edición (ISO 16642:2003), que ha sido revisada técnicamente.

Los principales cambios en comparación con la versión anterior son los siguientes:

  • Los siguientes formatos ya no se usan activamente. En consecuencia, se han eliminado las referencias a estos formatos (incluidos el Anexo A, el Anexo B y el Anexo C):
    • Martif con restricciones especificadas (MSC);
    • Geneter;
    • Formato de intercambio de categoría de datos (DCIF);
    • Herramienta de mapeo genérico (GMT);
  • Con la eliminación del Anexo B y el Anexo C, este documento ya no incluye ningún ejemplo de código integral de un TML. Los ejemplos de TML ahora están disponibles en ISO 30042, TermBase eXchange;
  • Las referencias al anterior Registro de Categoría de Datos ISO / TC 37 o ISOcat han sido cambiadas de normativas a informativas. Además, el nombre ha cambiado a DatCatInfo, ahora como un ejemplo de repositorios de categorías de datos;
  • Se eliminaron las referencias a ISO 12620:1999 e ISO 12620:2009. Estos estándares anteriores han sido retirados.
  • Se ha agregado el estilo TypedValuedElement;
  • Los ejemplos se han actualizado para reflejar ISO 30042: 2008 (TBX). TBX-Basic se menciona como TML;
  • Algunos de los ejemplos y tablas se han movido a las secciones apropiadas;
  • Como consecuencia de los cambios mencionados anteriormente, se eliminó parte de la información histórica, didáctica o duplicada para cumplir más estrictamente con los estándares editoriales de ISO.

Referencias normativas[editar]

Los siguientes documentos se mencionan en el texto de tal manera que parte o la totalidad de su contenido constituye los requisitos de este documento.

  • ISO 704, Trabajo terminológico - Principios y métodos;
  • ISO 1087-1, Trabajo terminológico - Vocabulario - Parte 1: Teoría y aplicación;
  • ISO 3166-1, Códigos para la representación de nombres de países y sus subdivisiones. Parte 1: Códigos de país;
  • ISO 26162, Sistemas para gestionar terminología, conocimiento y contenido. Diseño, implementación y mantenimiento de sistemas de gestión de terminología;
  • ISO 30042:2008, Sistemas para gestionar terminología, conocimiento y contenido - TermBase eXchange (TBX).

Términos y definiciones[editar]

Para los propósitos de este documento, se aplican los términos y definiciones dados en ISO 1087-1 y los que se muestran a continuación.

ISO e IEC mantienen bases de datos terminológicas para su uso en la estandarización en las siguientes direcciones:

Definiciones:

  1. Unidad de información básica: Unidad de información (12) adjunta a un componente (3) del metamodelo y que puede expresarse mediante una sola categoría de datos (6);
  2. Información complementaria (CI): Información complementaria a la descrita en las entradas terminológicas (22) y compartida en la recopilación de datos terminológicos (21). Las jerarquías de dominio, las descripciones de las instituciones, las referencias bibliográficas y las referencias a corpus de texto son ejemplos típicos de información complementaria;
  3. Componente: Unidad de descripción elemental de un metamodelo a la que se pueden asociar categorías de datos (6) para formar un modelo de datos;
  4. Unidad de información compuesta: Unidad de información (12) adjunta a un componente (3) del metamodelo que se expresa mediante varias categorías de datos agrupados (6) que, en conjunto, expresan una unidad coherente de información;
  5. Dominio conceptual: Conjunto de significados de valores válidos asociados con una categoría de datos (6). Por ejemplo, la categoría de datos /parte del discurso/ podría tener el siguiente dominio conceptual: /sustantivo/, /verbo/, /adjetivo/, /adverbio/, y así sucesivamente;
  6. Categoría de datos: Descriptor elemental utilizado en una descripción lingüística o esquema de anotación. En este documento, las categorías de datos se indican entre barras diagonales (/), por ejemplo: /definición/;
  7. Repositorio de categorías de datos (DCR): Repositorio electrónico de especificaciones de categorías de datos (3.9) que se utilizará como referencia para la definición de esquemas de anotaciones lingüísticas o cualquier otro modelo de representación para recursos lingüísticos. Un DCR para recursos de idiomas está disponible en http://www.datcatinfo.net;
  8. Selección de categoría de datos (DCS): Conjunto de categorías de datos (6) seleccionados de un DCR (7);
  9. Especificación de categoría de datos: Conjunto de atributos utilizados para describir completamente una categoría de datos dada (6). La abreviatura "DCS" está asociada con la selección de la categoría de datos y no se utiliza para la especificación de la categoría de datos;
  10. Árbol de expansión: Grupo estructurado de elementos XML que implementan un nivel del metamodelo en un TML dado (23);
  11. Información global (GI): Información técnica y administrativa que se aplica a toda la recopilación de datos terminológicos (21). Por ejemplo, el título de la recopilación de datos terminológicos, el historial de revisiones, el propietario o la información de copyright;
  12. Unidad de información (IU): Información elemental adjunta a un nivel estructural del metamodelo;
  13. Sección de idioma (LS): Parte de una entrada terminológica (22) que contiene información relacionada con un idioma. Una entrada terminológica puede contener información en uno o más idiomas;
  14. Lenguaje objeto: Lenguaje que se describe;
  15. Identificador persistente (PID): Identificador Único de Recursos (URI) único que garantiza el acceso permanente a un objeto digital al proporcionarle acceso independientemente de su ubicación física o propiedad actual;
  16. Nodo estructural: Instancia del componente (3) dentro de la representación de una recopilación de datos terminológicos (21);
  17. Esqueleto estructural: Descripción abstracta de una instancia de una recopilación de datos terminológicos (21) de conformidad con el metamodelo.
  18. Estilo: Especificación para la implementación de una categoría de datos (6) en XML;
  19. Término sección de componentes (TCS): Parte de una sección de términos (20) que proporciona información lingüística sobre los componentes de un término.
  20. Sección de término (TS): Parte de una sección de lenguaje (13) que proporciona información sobre un término;
  21. Recopilación de datos terminológicos (TDC): Recurso que consta de entradas terminológicas (22) con metadatos e información documental asociados;
  22. Entrada terminológica (TE): Parte de una recopilación de datos terminológicos (21) que contiene los datos terminológicos relacionados con un concepto. Cada elemento en el TE puede vincularse a información complementaria, a otras entradas terminológicas y a otros elementos en la misma entrada terminológica;
  23. Lenguaje de marcado terminológico (TML): Formato XML para representar una recopilación de datos terminológicos (21) conforme a las restricciones expresadas en este documento;
  24. Lenguaje de modelado unificado (UML): Lenguaje para especificar, visualizar, construir y documentar los artefactos de los sistemas de software;
  25. Vocabulario: <modelado de datos> conjunto de cadenas utilizadas para implementar una categoría de datos (6) según un estilo (18);
  26. Lenguaje de trabajo: Lenguaje utilizado para describir objetos;
  27. Esquema XML: Parte de una recopilación de datos terminológicos (21) correspondiente a la implementación XML del metamodelo.

Enfoque Modular[editar]

Terminological Markup Framework (TMF) consiste en dos niveles de abstracción:

  1. El primer nivel (el más abstracto) es el nivel de metamodelo, el cual soporta análisis, diseño y el intercambio a un nivel muy general. El metamodelo será compartido por todos los TDC que cumplan con TMF;
  2. El segundo nivel es el nivel de modelo de datos, que agrega las categorías de datos necesarias para representar TDC específicos.

La implementación de un modelo de datos en XML se denomina lenguaje de marcado terminológico (TML). Los TML se pueden describir sobre la base de un número limitado de características, a saber:

  • Cómo el TML expresa la organización estructural del metamodelo (es decir, los árboles de expansión del TML);
  • Las categorías de datos específicas utilizadas por el TML y cómo se relacionan con el metamodelo;
  • La forma en que estas categorías de datos pueden expresarse en XML y anclado en los árboles de expansión del TML, es decir, el estilo XML de cualquier categoría de datos dada;
  • Los vocabularios utilizados por el TML para expresar esos diversos objetos informativos como elementos y atributos XML de acuerdo con los estilos XML correspondientes.
  • El metamodelo describe la jerarquía básica de componentes a los que debe ajustarse cualquier TML;
  • Un conjunto de especificaciones de categoría de datos de un repositorio de categorías de datos que puede formar la base para definir una selección de categoría de datos (DCS) para el TML;
  • Las especificaciones de dialecto (dialecto) incluyen los diversos elementos necesarios para representar un TML dado en un formato XML. Estos elementos comprenden árboles de expansión y estilos de instanciación de categorías de datos, junto con sus vocabularios correspondientes;
  • Un DCR que proporciona especificaciones de categorías de datos de muestra para recursos lingüísticos está disponible en http://www.datcatinfo.net/. Cuando sea posible, las categorías de datos documentadas en este DCR deben usarse para un TML. Si no hay una categoría de datos adecuada disponible en este DCR, los implementadores del TML deberían proponer la creación de la especificación de categoría de datos requerida dentro de este DCR.

Referencias[editar]

https://www.iso.org/obp/ui/#iso:std:iso:16642:ed-2:v1:en -Enlace a la página de la Organización Internacional para la Estandarización.

https://infostore.saiglobal.com/en-gb/Standards/preview-256457/ (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última). -Enlace para más conocimiento sobre la versión 2003 del estándar.

Enlaces externos[editar]

http://www.tbxinfo.net/ -Enlace que muestra los ejemplos de TML disponibles en ISO 30042.

http://www.datcatinfo.net/ -Enlace al repositorio de categoría de datos DatCatInfo.

https://www.sis.se/api/document/preview/922741/ -Computer applications in terminology - Terminological markup framework