Datos Lingüísticos Enlazados Abiertos

De Wikipedia, la enciclopedia libre

En el marco del procesamiento del lenguaje natural, la lingüística y similares, los Datos Lingüísticos Enlazados Abiertos (Linguistic Linked Open Data, más conocidos como LLOD, por sus siglas en inglés) hacen referencia a una metodología y a una comunidad interdisciplinaria que se dedica a crear, compartir y reutilizar recursos lingüísticos publicados según los principios de los Linked Data (Datos Enlazados). La Nube de Datos Lingüísticos Enlazados Abiertos fue concebida por el Open Linguistics Working Group (OWLG), parte de Open Knowledge Foundation, que la alberga y mantiene, pero desde entonces, se ha convertido en un gran foco de actividad para muchos grupos del W3C, proyectos de investigación y de infraestructura.

Datos Lingüísticos Enlazados Abiertos[editar]

LLOD Cloud

La iniciativa de los Datos Lingüísticos Enlazados Abiertos se basa en publicar datos lingüísticos para el procesamiento del lenguaje natural según los siguientes principios:[1]

  • Los datos deben tener licencia abierta, como por ejemplo las licencias Creative Commons.
  • Dentro de un recurso, los elementos deben estar identificados por medio de una URI única.
  • La URI debe ser funcional para que los usuarios puedan acceder a más información mediante los navegadores web.
  • El acceso a un recurso de la LLOD debería devolver un resultado en un estándar web como el Resource Description Framework (RDF).
  • Se deben incluir hipervínculos a otros recursos para ayudar a los usuarios a descubrir nuevos recursos e información semántica.

Las ventajas principales de los LLOD son las siguientes:[2]

  • Representación: los grafos enlazados son una forma más flexible de representar datos lingüísticos.
  • Interoperabilidad: los modelos más comunes de RDF son muy fáciles de integrar.
  • Federación: se pueden combinar datos de muchos recursos diferentes.
  • Ecosistema: las herramientas para RDF y Datos Enlazados están disponibles bajo licencias de software libre.
  • Expresividad: los vocabularios existentes ayudan a representar recursos lingüísticos.
  • Semántica: se utilizan enlaces comunes para expresar lo que se requiere.
  • Dinamismo: los datos expuestos en la web se pueden mejorar continuamente.

El diagrama de la nube de LLOD está disponible en linguistic-lod.org[3]

Usos de los LLOD[editar]

Los Datos Lingüísticos Enlazados Abiertos se han aplicado a varios problemas científicos concretos:

  • En todas las áreas de la lingüística empírica, la filología computacional y el procesamiento del lenguaje natural, la anotación lingüística y el marcado constituyen elementos básicos para el análisis. No obstante, el progreso en esta línea se ve obstaculizado por problemas de interoperabilidad, especialmente la heterogeneidad de vocabularios y de esquemas de anotación que se utilizan para los distintos recursos y herramientas. Al utilizar Datos Enlazados para conectar recursos lingüísticos y ontologías/repositorios terminológicos, se facilita la reutilización de vocabularios compartidos y la interpretación de dichos recursos en función de una base común.
  • En la lingüística de corpus y la filología computacional, el marcado superpuesto representa un problema sabido para los formatos XML convencionales. Esto ha llevado a la propuesta de modelos de datos basados en grafos desde finales de la década de 1990.[4]​ Estos modelos se representan tradicionalmente mediante varios archivos XML enlazados entre sí (XML stand-off),[5]​ que cuentan con poco soporte tecnológico a día de hoy.[6]​ El modelado de este tipo de anotaciones tan complejas como datos enlazados representa un formalismo semánticamente equivalente a XML standoff[7]​ pero evita la necesidad de tecnología específica para este propósito al apoyarse en el ecosistema RDF ya existente.
  • En las tareas y cuestiones relacionadas con la naturaleza multilingüe de los datos, incluyendo, por ejemplo, el enlazado de recursos léxicos como WordNet de la manera implementada en el Interlingual Index de la Global WordNet Association, y la interconexión de recursos heterogéneos como WordNet y Wikipedia tal y como se llevó a cabo en BabelNet.
  • La investigación en Datos Abiertos Lingüísticos Enlazados también ha llevado a la creación de foros de estandarización de la información relativa a los recursos lingüísticos.

Recursos destacados en la nube de LLOD[editar]

En abril de 2018, de los recursos presentes en el diagrama de LLOD, los diez recursos más enlazados, es decir, con más enlaces provenientes de otros recursos, son los siguientes:

  • Las Ontologías de Anotación Lingüística (Ontologies of Linguistic Annotation, OLiA; enlazadas con 74 conjuntos de datos), que proporcionan una terminología de referencia para las anotaciones lingüísticas y los metadatos gramaticales;
  • WordNet (enlazado con 51 conjuntos de datos), una base de datos léxicos del inglés, ampliamente utilizada como punto de partida para el desarrollo de bases de datos similares en otros idiomas, con varias ediciones (la edición de Princeton, enlazada con 36 conjuntos de datos; la edición del W3C, enlazada con 8 conjuntos de datos; y la edición VU, enlazada con 7 conjuntos de datos);
  • DBpedia (enlazado con 50 conjuntos de datos), como base multilingüe de conocimiento general basada en Wikipedia;
  • lexinfo.net (enlazado con 36 conjuntos de datos), que proporciona terminología de referencia para recursos léxicos;
  • BabelNet (enlazado con 33 conjuntos de datos), una red semántica multilingüe y una ontología lexicalizada basada en la agregación del contenido de distintos recursos, particularmente de WordNet y de Wikipedia.
  • lexvo.org (enlazado con 26 conjuntos de datos), que proporciona identificadores de lengua y otros datos relacionados con el idioma. En particular, lexvo ofrece una representación en RDF de los códigos de tres letras ISO 639-3 para los identificadores de lengua e información sobre las mismas;
  • El registro de categorías de datos ISO 12620 (Data Category Registry, ISOcat; la edición en RDF enlazada con 10 conjuntos de datos ofrece un repositorio semiestructurado para terminología diversa relacionada con la lenguas. ISOcat está alojado en The Language Archive, y, específicamente, en el proyecto DOBES, en el Instituto Max Planck de Psicolingüística, pero actualmente se encuentra en transición a CLARIN;
  • UBY (Edición en RDF lemon-Uby, enlazada con 9 conjuntos de datos), una red léxica del inglés resultado de la agregación de diversos recursos léxicos;
  • Glottolog (enlazado con 7 conjuntos de datos), que proporciona identificadores de lengua específicos y detallados para lenguas con pocos recursos, muchas de ellas no incluidas en lexvo.org;
  • Enlaces de Wiktionary-DBpedia (wiktionary.dbpedia.org, enlazado con 7 conjuntos de datos), lexicalizaciones basadas en Wiktionary para los conceptos de DBpedia.

Desarrollo de la LLOD y actividades de la comunidad[editar]

El diagrama de la nube de LLOD lo mantiene el Open Linguistics Working Group (OWLG) de la Open Knowledge Foundation (desde 2014, se denomina “Open Knowledge”), un grupo abierto e interdisciplinar de expertos en recursos lingüísticos.

El OWLG organiza eventos, coordina el desarrollo de la nube de LLOD y facilita la comunicación interdisciplinaria entre colaboradores y usuarios.

Hay varios grupos del W3C, tanto de «grupos de empresa» como «grupos de comunidad», especializados en diferentes aspectos de la nube de LLOD:

  • El grupo Ontology-Lexica Community Group del W3C (OntoLex) mantiene y desarrolla especificaciones para publicar diccionarios en formatos legibles por máquinas en la nube de LLOD.
  • El grupo Best Practices for Multilingual Linked Open Data Community del W3C recoge información sobre las mejores prácticas para producir datos enlazados lingüísticos multilingües abiertos.[8]
  • El grupo Linked Data for Language Technology Community (LD4LT) del W3C trabaja en casos de uso y requisitos para diseñar aplicaciones de tecnología lingüística que utilicen Datos Enlazados.[9]

El desarrollo de la nube de LLOD está impulsado por una serie de talleres y competiciones internacionales documentadas, entre otros:

  • Linked Data in Linguistics (LDL), un taller científico con una periodicidad anual, que comenzó en 2012
  • Multilingual Linked Open Data for Enterprises (MLODE), una reunión de la comunidad de datos abiertos y enlazados multilingües para empresas, con periodicidad bianual (celebrada en 2012 y en 2014)
  • Summer Datathon on Linguistic Linked Open Data (SD-LLOD), una competición bianual que se viene celebrando desde 2015

El desarrollo y la utilización de la nube de LLOD se ha impulsado gracias a varios proyectos de investigación de gran escala, entre los que se incluyen:

  • LOD2. Creating Knowledge out of Interlinked Data, Creación de conocimiento mediante Datos Enlazados, (11 países europeos + Corea, 2010–2014)[10]
  • MONNET. Multilingual Ontologies for Networked Knowledge, Ontologías Multilingües para Conocimiento en Red, (5 países europeos, 2010–2013)[11]
  • LIDER. Datos Enlazados como facilitador de análisis de contenido multimedia y multilingüe para empresas enEuropa (5 países europeos, 2013–2015)[12]
  • QTLeap. Quality Translation by Deep Language Engineering Approaches, Traducción de Calidad basada en Técnicas Profundas de Ingeniería del Lenguaje, (6 países europeos, 2013–2016)[13]
  • LiODi. Linked Open Dictionaries, Diccionarios Enlazados Abiertos, (BMBF eHumanities Early Carreer Research Group, Goethe University Frankfurt, Germany, 2015-2020)[14]
  • FREME. Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content, Marco Abierto de Servicios Electrónicos para el Enriquecimiento Semántico Multilingüe del Contenido Digital (6 países europeos, 2015-2017)[15]
  • POSTDATA. Poetry Standardization and Linked Open Data, Estandarización de Poesía y Datos Enlazados Abiertos (ERC Starting Grant, UNED, Spain, 2016-2021)[16]
  • Linking Latin, Enlazando Latín (ERC Consolidator Grant, Universita Cattolica del Sacro Cuore, Italy, 2018-2023)[17]
  • Prêt-à-LLOD (5 países europeos, 2019-2021), cuyo objetivo es la creación de datos lingüísticos enlazados multilingües listos para ser utilizados por servicios de diferentes sectores.[18]
  • NexusLinguarum. Red Europea para la Ciencia de Datos Lingüísticos en la Web (COST Action, 35 países COST, 2 países vecinos, un país socio internacional, 2019-2023)[19]

Referencias[editar]

  1. Open Linguistics Working Group. «Linguistic LOD». linguistic-lod.org. LIDER project. Consultado el 24 de mayo de 2016. 
  2. Chiarcos, Christian; McCrae, John; Cimiano, Philipp; Fellbaum, Christiane (2013). Towards open data for linguistics: Lexical Linked Data. Heidelberg: In: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Research in Ontologies and Lexical Resources. Springer. Archivado desde el original el 15 de febrero de 2016. Consultado el 24 de mayo de 2016. 
  3. «Linguistic Linked Open Data. Information about the current status of the growing cloud of linguistic linked open data.». Consultado el 10 de diciembre de 2019. 
  4. Bird, Steven; Liberman, Mark. «Towards a formal framework for linguistic annotations». In: Proceedings of the International Conference on Spoken Language Processing, Sydney, 1998. Consultado el 25 de mayo de 2016. 
  5. ISO 24612:2012. «Language resource management -- Linguistic annotation framework (LAF)». ISO. Consultado el 25 de mayo de 2016. 
  6. Eckart, Richard (2008). Choosing an XML database for linguistically annotated corpora. SDV. Sprache und Datenverarbeitung 32.1/2008: International Journal for Language Data Processing, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr, Berlin, Sep 2008. pp. 7-22. 
  7. Chiarcos, Christian. «Interoperability of Corpora and Annotations (draft version)». In: Christian Chiarcos, Sebastian Nordhoff, and Sebastian Hellmann (eds.) Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata, 2012. Archivado desde el original el 10 de mayo de 2017. Consultado el 25 de mayo de 2016. 
  8. «Best Practices for Multilingual Linked Open Data Community Group». Consultado el 9 de diciembre de 2019. 
  9. «Linked Data for Language Technology Community Group». Consultado el 9 de diciembre de 2019. 
  10. «lod2.okfn.org (archived version)». Archivado desde el original el 7 de marzo de 2014. Consultado el 9 de diciembre de 2019. 
  11. «Multilingual Ontologies for Networked Knowledge (Monnet)». European Commission, CORDIS EU research results. Consultado el 10 de diciembre de 2019. 
  12. «LIDER: Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe». European Commission, CORDIS EU research results. Consultado el 10 de diciembre de 2019. 
  13. «Quality Translation by Deep Language Engineering Approaches». European Commission, CORDIS EU research results. Consultado el 10 de diciembre de 2019. 
  14. «Linked Open Dictionaries (LiODi)». Archivado desde el original el 17 de enero de 2020. Consultado el 10 de diciembre de 2019. 
  15. «Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content». Consultado el 10 de diciembre de 2019. 
  16. «POSTDATA – Poetry Standardization and Linked Open Data». Consultado el 10 de diciembre de 2019. 
  17. «Linking Latin. Building a Knowledge Base of Linguistic Resources for Latin». Consultado el 10 de diciembre de 2019. 
  18. «Pret-a-LLOD project home page». Consultado el 10 de diciembre de 2019.  «Pret-a-LLOD». European Commission, CORDIS EU research results. Consultado el 10 de diciembre de 2019. 
  19. «CA18209 - European network for Web-centred linguistic data science». cost. European Cooperation in Science and Technology. Consultado el 10 de diciembre de 2019.