WordNet

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

WordNet es una base de datos léxica del Idioma inglés[1] que agrupa palabras en inglés en conjuntos de sinónimos llamados synsets, proporcionando definiciones cortas y generales y almacenando las relaciones semánticas entre los conjuntos de sinónimos. Su propósito es doble: producir una combinación de diccionario y tesauro cuyo uso sea más intuitivo, y soportar los análisis automáticos de texto y las aplicaciones de inteligencia artificial. Así, WordNet es el lexicón computacional de inglés comúnmente más usado para desambiguar el significado de las palabras (word sense disambiguation (WSD)), una tarea que tiene como objetivo asignar el concepto más apropiado (i.e. synsets) a los términos en contexto. La base de datos y las herramientas del software se han liberado bajo una licencia BSD y pueden ser descargadas y usadas libremente; además, la base de datos puede consultarse en línea.

Historia y miembros del equipo[editar]

WordNet fue creado y es mantenido por el Cognitive Science Laboratory de la Universidad de Princeton bajo la dirección del profesor de psicología George A. Miller. El proyecto comenzó en 1985 y, a través de los años, ha recibido financiamiento de agencias gubernamentales interesadas en la traducción automática como la National Science Foundation, DARPA y REFLEX. Hacia el año 2009, el equipo de WordNet incluye a los siguientes miembros: George Armitage Miller, Christiane Fellbaum, Randee Tengi, Pamela Wakefield, Helen Langone y Benjamin R. Haskell. A Miller y Fellbaum les fue concedido el Premio Antonio Zampolli en el 2006 por su trabajo con la base de datos.

Contenido de la base de datos[editar]

Desde noviembre de 2012 la última versión de WordNet es la 3.1 (anunciada en junio del 2011), pero la última versión liberada fue la 3.0 (liberada en diciembre del 2006).[2] La base de datos 3.0 contiene 155 287 palabras organizadas en 117 659 synsets(grupos de significado) para un total de 206 941 pares de palabras; en forma comprimida tiene 12 megabytes de tamaño.[3] WordNet distingue entre sustantivos, verbos, adjetivos y adverbios porque siguen diferentes reglas gramaticales, pero no incluye preposiciones y otros similares. Cada synset contiene un grupo de palabras que son sinónimos o locuciones (una locución es una secuencia de palabras que, unidas, toman un significado específico); mientras que diferentes significados de una palabra están en distintos synsets. El significado de los synset queda más claro con los glosses (definición y/o frases de ejemplo). Un ejemplo de un synset con gloss es el siguiente:

good, right, ripe – (most suitable or right for a particular purpose; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes")

La mayoría de los synsets están conectados a otros synsets mediante numerosas relaciones semánticas. Estas relaciones varían basándose en el tipo de palabra, y se incluyen:

  • Sustantivos
    • hiperonimia (hypernymy): Y es un hiperónimo de X si cada X es (del tipo de) un Y (cánido es un hiperónimo de perro), o lo que es lo mismo, si X es una clase de Y.
    • hiponimia (hyponymy): Y es un hipónimo de X si cada Y es (del tipo de) un X (perro es un hipónimo de cánido). Si Y es un hipónimo de X, entonces X es un hiperónimo de Y.
    • términos coordinados (coordinate terms): Y es un término coordinado de X si X y Y comparten un hiperónimo y viceversa (lobo y perro son términos coordinados puesto que ambos son cánidos).
    • holonimia (holonymy): Y es un holónimo de X si X es parte de Y (edificio es un holónimo de ventana)
    • meronimia (meronymy):Y es un merónimo de X si Y es una parte de X (ventana es un merónimo de edificio). Si Y es un merónimo de X, entonces X es un holónimo de Y.
  • Verbos
    • hiperonimia (hypernymy): el verbo Y es un hiperónimo del verbo X si la actividad X es (del tipo de) un Y (percibir es un hiperónimo de escuchar). Es el mismo tipo de relación que se utiliza con los nombres.
    • troponimia (troponym): el verbo Y es un tropónimo del verbo X si la actividad expresada por Y está realizando X de alguna manera (balbucear es un tropónimo de hablar).
    • consecuencia lógica (entailment): el verbo Y es consecuencia lógica de X si haciendo X se debe estar haciendo Y (dormir es una consecuencia lógica de roncar).
    • términos coordinados (coordinate terms): dos verbos son términos coordinados si ambos comparten un hiperónimo común (susurrar y gritar son términos coordinados).
  • Adjetivos
    • sustantivos relacionados
    • similar a
    • participios de verbos
  • Adverbios
    • La raíz de los adjetivos

Mientras que las relaciones semánticas se aplican a todos los miembros de un synset porque comparten significado, no todos son mutuamente sinónimos desde que las palabras también pueden estar conectadas a otras a través de relaciones léxicas, incluyendo antónimos. WordNet también provee el polysemy count: el número de synsets que contienen la palabra. Si una palabra participa en varios synsets (i.e. tiene varios significados) es lógico que unos significados sean más comunes que otros. WordNet los califica por la frecuency score, según el cual varios textos de ejemplo tienen todas las palabras semánticamente etiquetadas en el correspondiente synset y después, a través de un contador, se indica la frecuencia en la que una palabra aparece con un significado específico. Las funciones morfológicas del software distribuidas con la base de datos tratan de deducir el lema o lexema de una palabra desde la entrada del usuario, mientras que dicho lexema es almacenado en la base de datos.

Estructura del conocimiento[editar]

Los sustantivos y los verbos están organizados en jerarquías. Por ejemplo, el primer significado de la palabra "perro" tendrá la primera jerarquía hypernyn; las palabras en el mismo nivel son sinónimos unas de otras. Cada conjunto de sinónimos (synset) tiene un único indexador y comparte sus propiedades, así como una definición tipo gloss (o diccionario).

 dog, domestic dog, Canis familiaris
    => canine, canid
       => carnivore
         => placental, placental mammal, eutherian, eutherian mammal
           => mammal
             => vertebrate, craniate
               => chordate
                 => animal, animate being, beast, brute, creature, fauna
                   => ...

En el nivel superior estas jerarquías están organizadas en tipos básicos, 25 grupos primitivos de sustantivos y 15 de verbos. Estos grupos de archivos lexicográficos están en un nivel de mantenimiento y están conectados a un nodo raíz abstracto, que ha sido asumido desde algún tiempo por varias aplicaciones que usan WordNet. En el caso de los adjetivos la organización es diferente: la jerarquía y el concepto involucrado con los archivos lexicográficos no se aplican de la misma forma que lo hacen para los sustantivos y los verbos. En esencia, el grafo de sustantivos es mucho más profundo que otras partes del lenguaje; los verbos tienen una estructura más densa; los adjetivos están organizados en varios clústeres diferentes; y los adverbios están organizados en términos de los adjetivos de los cuales se derivan, y por tanto heredan su estructura de estos.

Justificación psicológica[editar]

El objetivo de WordNet era desarrollar un sistema que fuera consistente con el conocimiento adquirido a través de los años sobre cómo los humanos procesan el lenguaje. La afasia anómica (anomic aphasia), por ejemplo, crea una condición que parece dificultar la habilidad de los individuos de nombrar los objetos; esto hace la decisión de particionar las distintas partes del idioma en distintas jerarquías es más una decisión de principio que una decisión arbitraria. En el caso de los hipónimos, los experimentos psicológicos revelan que los individuos pueden acceder a las propiedades de los sustantivos de forma más rápida dependiendo de cuando una característica se convierte en una propiedad definitoria. Por ejemplo, los individuos pueden verificar rápidamente que los canarios pueden volar porque un canario es un ave, pero cuesta más trabajo identificar que un canario tiene piel. Esto sugiere que nosotros también almacenamos información semántica en una forma muy parecida a como lo hace WordNet, porque solo retenemos la información más específica que necesitamos para diferenciar un concepto en particular de otros conceptos similares.[4]

WordNet como una ontología[editar]

La relación hiperónimo/hipónimo entre los synsets puede ser interpretada como una relación de especialización entre categorías conceptuales. En otras palabras, WordNet puede ser interpretado y usado como una ontología en la ciencia de la computación; sin embargo, para utilizarlo como una ontología debe ser corregido antes de usarlo, ya que contiene cientos de inconsistencias semánticas básicas como (i) la existencia de especializaciones comunes para categorías exclusivas y (ii) redundancias en la jerarquía de especialización. Por lo tanto, transformar WordNet en una ontología léxica usable para la representación del conocimiento debe normalmente involucrar (i) la distinción de las relaciones de especialización en subtipos de las instancias de relaciones y (ii) asociar identificadores únicos e intuitivos para cada categoría. Aunque esas correcciones y transformaciones han sido desarrolladas y documentadas como parte de la integración de WordNet dentro de WebKB-2, la base de conocimiento actualizable de forma cooperativa, la mayoría de los proyectos alegan rehusarse a utilizar WordNet para aplicaciones basadas en conocimientos (típicamente aplicaciones para la recuperación de información orientada al conocimiento) de forma directa. WordNet también ha sido convertido en una especificación formal por medio de una metodología híbrida bottom-up top-down para extraer automáticamente relaciones de asociación e interpretar dichas asociaciones en términos de conjuntos de relaciones conceptuales, formalmente definido en el DOLCE foundational ontology..[5]

Problemas y limitaciones[editar]

A diferencia de otros diccionarios, WordNet no incluye información sobre la etimología, pronunciación y la forma de los verbos irregulares y contiene solo información limitada sobre uso. La información lexicográfica y semántica actual se mantiene en los archivos lexicográficos, que son procesados por una herramienta llamada grind para producir la base de datos distribuida. Ambos, el grind y los archivos, están disponibles libremente en una distribución separada, pero la modificación y mantenimiento de la base de datos requiere experiencia. Por otra parte, a pesar de que WordNet contiene un rango suficientemente amplio de palabras comunes, no cubre el vocabulario de un dominio específico: como está diseñada en primer lugar para actuar como capa subyacente en diferentes aplicaciones, estas no pueden ser usadas en dominios específicos que no son cubiertos por el programa.

Aplicaciones[editar]

WordNet ha sido usado para diferentes y numerosos propósitos en sistemas de información, que incluyen desambiguación del significado de palabras, recuperación de información, clasificación automática de texto, resumen automático de texto, traducción automática e incluso generación de crucigramas. En la Universidad de Brown, Jeff Stibel, James A. Anderson y Steve Reiss, entre otras personas, comenzaron un proyecto llamado Applied Cognition Lab que creaba un desambiguador usando WordNet en 1998. Más tarde este proyecto se integró a la compañía llamada Simpli, de la que actualmente ValueClick es el dueño. George Miller se uniría a Simpli como miembro del consejo asesor y dicha compañía construiría un buscador para Internet que utilizaba una base de conocimientos basada principalmente en WordNet para desambiguar y expandir palabras claves y synsets con el fin de ayudar en la recuperación de información online. Otro prominente ejemplo del uso de WordNet es determinar la similitud entre palabras. Frente a esto se han propuesto varios algoritmos que incluyen considerar la distancia entre las categorías conceptuales de las palabras, así como tener en cuenta la estructura jerárquica de la ontología de la base de datos. Numerosos algoritmos de similitud entre palabras basados en WordNet están implementados en un paquete Perl llamado WordNet:Similarity, y un paquete en Python llamado NLTK.

Interfaces[editar]

Princeton mantiene una lista de proyectos relacionados que incluye enlaces a algunas de las interfaces de programación de aplicaciones más usadas, que disponen de acceso a WordNet usando varios lenguajes de programación y ambientes de desarrollo.

Proyectos relacionados y extensiones[editar]

Wordnet está conectado con algunas bases de datos de la Web semántica, en donde es utilizado comúnmente para el mapeo entre las categorías de WordNet (i.e. synsets) y las categorías de otras ontologías. Generalmente, solo las categorías de los niveles superiores de WordNet son correlacionadas.

Global WordNet Association[editar]

La Asociación de WordNet Global (Global WordNet Association (GWA)) es una organización libre, pública y no comercial que suministra una plataforma para discutir, compartir y conectar las bases de datos WordNets para todas lenguas en el mundo entero. El GWA también promueve la estandarización entre idiomas diferentes para asegurar su uniformidad al enumerar los synsets en diferentes idiomas. Para tal efecto, el GWA mantiene una lista de WordNet desarrollados mundialmente.[6]

Otros Idiomas[editar]

  • WOLF (WordNet Libre du Français), una versión francesa de WordNet.[7]
  • JAWS (Just Another WordNet Subset), otra versión francesa de WordNet[8] desarrollada usando el Wiktionary y los espacios semánticos
  • El proyecto de MultiWordNet,[9] un WordNet plurilingüe que tuvo como objetivo producir a una versión italiana enérgicamente alineado con la versión de Princeton.
  • El proyecto de EuroWordNet[10] ha producido WordNets para algunas lenguas europeas conectados entre sí; si bien estos no están disponibles de forma libre. El proyecto mundial intenta coordinar la producción y conectar las bases de datos para todos los idiomas.[11] Oxford University Press, la editorial del Oxford English Dictionary, ha expresado los planes de producir su propio competidor en línea.
  • El proyecto de BalkaNet[12] ha producido WordNets para seis lenguas europeas (búlgaro, checo, griego, rumano, turco y serbio). Para este proyecto, el editor de la base de datos fue desarrollado con base en XML libremente disponible. Este editor - VisDic - no está más en desarrollo activo, pero todavía es usado para la creación de varias versiones. Su sucesor, DEBVisDic, es una aplicación cliente-servidor y es usado para editar algunas versiones (holandés en el proyecto de Cornetto, polaco, húngaro, algunas lenguas africanas, chino).
  • UWN es una base de conocimientos léxica plurilingüe automáticamente formulada que extiende WordNet para cubrir más de un millón palabras en muchas lenguas diferentes.[13]
  • Proyectos como BalkaNet y EuroWordNet hicieron viable crear versiones independientes vinculados al original. Uno de esos proyectos es Russian WordNet patrocinado por Petersburg State University of Means of Communication[14] o Russnet por la Saint Petersburg State University
  • FinnWordNet es una versión finlandesa del WordNet donde todas anotaciones de la versión original fueron traducidas.[15]
  • GermaNet es un versión alemana del WordNet desarrollado por la universidad de Tübingen.[16]

Integración de Datos[editar]

  • BabelNet,[17] es una red semántica plurilingüe muy grande con millones de conceptos obtenidos de una integración de WordNet y Wikipedia sobre la base de un algoritmo de correspondencia automático.
  • La ontología SUMO (SUMO)[18] ha realizado un mapeo entre todos los synsets de los WordNet (incluyendo los sustantivos, los verbos, adjetivos y adverbios), y las clases SUMO. La adición más reciente del mapeo provee enlaces a todos los términos más específicos en la ontología de nivel medio (MILO) que extiende SUMO.
  • OpenCyc,[19] es una ontología y una base de conocimientos, tiene 12,000 términos vinculados con conjuntos de sinónimos WordNet.
  • DOLCE,[20] es el primer módulo de WonderWeb Foundational Ontologies Library (WFOL). OntoWordNet es el resultado de un esfuerzo experimental de alinear el nivel superior de WordNet con DOLCE. Se cree que tal alianza podría resultar en un WordNet "ontológicamente más atractivo", resultando ser conceptualmente más difícil, cognoscitivamente transparente y eficientemente explotable en algunas aplicaciones.
  • DBpedia,[21] una base de datos de información estructurada, también está vinculada con WordNet.
  • The eXtended WordNet[22] es un proyecto de la Universidad de Texas, en Dallas, que aspira a mejorar WordNet descomponiendo gramaticalmente las glosses, haciendo la información, semánticamente contenida en estas definiciones, disponible para los sistemas de procesamiento de conocimientos automáticos. Está también disponible de forma libre bajo una licencia similar a WordNet.
  • El proyecto GCIDE produjo un diccionario combinando la edición de un Webster en dominio público que data de 1913 con algunas definiciones de WordNet y un material proveído por voluntarios. Fue dado a conocer bajo la licencia copyleft GPL.
  • ImageNet es una base de datos imágenes organizada de acuerdo a la jerarquía de WordNet (actualmente solo aplica con sustantivos), en que cada nodo de la jerarquía es retratado por centenares de imágenes.[23] Actualmente tiene un promedio de más de quinientas imágenes por nodo.
  • BioWordnet, una ampliación biomédica de WordNet que fue abandonada debido a asuntos de la estabilidad de versiones.
  • WikiTax2WordNet es un mapeo entre los synsets de WordNet y las categorías de Wikipedia.[24]
  • WordNet++, un recurso que incluye millones de aristas semánticos sacados de Wikipedia y que conecta pares de synsets de WordNet.[25]
  • SentiWordNet, un recurso para aplicaciones mineras de opinión con soporte obtenido mediante la etiqueta de todos los synsets de WordNet3.0, de acuerdo con sus grados aproximados de positividad, negatividad, y neutralidad.[26]
  • ColorDict, es una aplicación de Android para teléfonos móviles que usa WordNet y otras bases de datos, de la misma manera que Wikipedia.

Otros proyectos[editar]

  • FrameNet es un proyecto similar a WordNet. Consta de un lexicón que está basado en poner anotaciones en más de 100 000 oraciones con sus propiedades semánticas
  • Un proyecto nuevo titulado wordNet (no WordNet) es un buscador de Internet que contiene mapas de Internet y no solo tiene correspondencias de palabra (como WordNet) sino también frases, conceptos, y mapeo de sitios web.[27]
  • Lexical markup framework (LMF) es una obra en marcha dentro de ISO / TC37 para definir un marco normalizado común para la construcción de lexicones, incluyendo WordNet.
  • UNL Programme es un proyecto bajo los auspicios de la ONU que tiene como objetivo consolidar los datos léxicos y semánticos de muchas lenguas para ser usado en la traducción automática y los sistemas de extracción de información.

Distribuciones[editar]

La base de datos de WordNet es distribuida como un paquete de diccionario (generalmente un archivo único) para los siguientes software:

Referencias[editar]

  1. G. A. Miller, R. Beckwith, C. D. Fellbaum, D. Gross, K. Miller. 1990. WordNet: An online lexical database. Int. J. Lexicograph. 3, 4, pp. 235–244.
  2. Current WordNet version
  3. WordNet Statistics
  4. Collins A., Quillian M. R. 1972. Experiments on Semantic Memory and Language Comprehension. In Cognition in Learning and Memory. Wiley, New York.
  5. A. Gangemi, R. Navigli, P. Velardi. The OntoWordNet Project: Extension and Axiomatization of Conceptual Relations in WordNet, In Proc. of International Conference on Ontologies, Databases and Applications of SEmantics (ODBASE 2003), Catania, Sicily (Italy), 2003, pp. 820–838.
  6. http://web.archive.org/web/http://www.globalwordnet.org/gwa/wordnet_table.html
  7. S. Benoît, F. Darja. 2008. Building a free French wordnet from multilingual resources. In Proc. of Ontolex 2008, Marrakech, Maroc.
  8. C. Mouton, G. de Chalendar. 2010.JAWS: Just Another WordNet Subset. In Proc. of TALN 2010.
  9. E. Pianta, L. Bentivogli, C. Girardi. 2002. MultiWordNet: Developing an aligned multilingual database. In Proc. of the 1st International Conference on Global WordNet, Mysore, India, pp. 21–25.
  10. P. Vossen, Ed. 1998. EuroWordNet: A Multilingual Database with Lexical Semantic Networks. Kluwer, Dordrecht, The Netherlands.
  11. http://www.globalwordnet.org/
  12. D. Tufis, D. Cristea, S. Stamou. 2004. Balkanet: Aims, methods, results and perspectives. A general overview. Romanian J. Sci. Tech. Inform. (Special Issue on Balkanet), 7(1-2), pp. 9–43.
  13. http://www.mpi-inf.mpg.de/yago-naga/uwn
  14. http://web.archive.org/web/http://www.pgups.ru/abitur/inostrancam/inter/ruwordnet/
  15. http://www.ling.helsinki.fi/en/lt/research/finnwordnet/
  16. GermaNet
  17. R. Navigli, S. P. Ponzetto. BabelNet: Building a Very Large Multilingual Semantic Network. Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), Uppsala, Sweden, July 11–16, 2010, pp. 216–225.
  18. A. Pease, I. Niles, J. Li. 2002. The suggested upper merged ontology: A large ontology for the Semantic Web and its applications. In Proc. of the AAAI-2002 Workshop on Ontologies and the Semantic Web, Edmonton, Canada.
  19. S. Reed and D. Lenat. 2002. Mapping Ontologies into Cyc. In Proc. of AAAI 2002 Conference Workshop on Ontologies For The Semantic Web, Edmonton, Canada, 2002
  20. Masolo, C., Borgo, S., Gangemi, A., Guarino, N., Oltramari, A., Schneider, L.S. 2002. WonderWeb Deliverable D17. The WonderWeb Library of Foundational Ontologies and the DOLCE ontology. Report (ver. 2.0, 15-08-2002)
  21. C. Bizer, J. Lehmann, G. Kobilarov, S. Auer, C. Becker, R. Cyganiak, S. Hellmann, DBpedia – A crystallization point for the Web of Data. Web Semantics, 7(3), 2009, pp. 154–165
  22. S. M. Harabagiu, G. A. Miller, D. I. Moldovan. 1999. WordNet 2 – A Morphologically and Semantically Enhanced Resource. In Proc. of the ACL SIGLEX Workshop: Standardizing Lexical Resources, pp. 1–8.
  23. J. Deng, W. Dong, R. Socher, L. Li, K. Li, L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In Proc. of 2009 IEEE Conference on Computer Vision and Pattern Recognition
  24. M. Poprat, E. Beisswanger, U. Hahn. 2008. Building a BIOWORDNET by Using WORDNET’s Data Formats and WORDNET’s Software Infrastructure – A Failure Story. In Proc. of the Software Engineering, Testing, and Quality Assurance for Natural Language Processing Workshop, pp. 31–39.
  25. S. P. Ponzetto, R. Navigli. Knowledge-rich Word Sense Disambiguation rivaling supervised systems. In Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), 2010, pp. 1522–1531.
  26. S. Baccianella, A. Esuli and F. Sebastiani. SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. In Proceedings of the 7th Conference on Language Resources and Evaluation (LREC'10), Valletta, MT, 2010, pp. 2200–2204.
  27. http://web.archive.org/web/http://wordnet.cemetech.net/?page=about
  28. StarDict Downloadable Dictionaries
  29. Babylon WordNet
  30. Lingoes WordNet

Enlaces externos[editar]