WordNet

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

WordNet es una base de datos léxica del Idioma Inglés.[1] Agrupa palabras en inglés en conjuntos de sinónimos llamados synsets, proporcionando definiciones cortas y generales, y almacena las relaciones semánticas entre los conjuntos de sinónimos. Su propósito es doble: producir una combinación de diccionario y tesauro cuyo uso sea más intuitivo, y soportar análisis automático de texto y a aplicaciones de Inteligencia Artificial. La base de datos y las herramientas del software se han liberado bajo una licencia BSD y pueden ser descargadas y usadas libremente. Además la base de datos puede consultarse en línea.

Historia y miembros del equipo[editar]

WordNet fue creado y es mantenido por el Cognitive Science Laboratory de la Universidad de Princeton bajo la dirección del profesor de psicología George A. Miller. El desarrollo comenzó en 1985. A través de los años, el proyecto ha recibido financiación de agencias gubernamentales interesadas en la traducción automática. Desde 2009, el equipo de WordNet incluye los siguientes miembros del Cognitive Sciencie laboratory George Armitage Miller, Christiane Fellbaum, Randee Tengi, Pamela Wakefield, Helen Langone and Benjamin R. Haskell. WordNet ha recibido donaciones del National Science Foundation, DARPA, de Disruptive Technology Office (formalmente el Advance Research and Development Activity), y REFLEX. A George Miller y Christiane Fellbaum les concedieron en el 2006 el Premio Antonio Zampolli por su trabajo con WordNet.

Contenido de la base de datos[editar]

Desde noviembre de 2012 la última versión de WordNet es la 3.1 (anunciada en junio del 2011), pero la última versión liberada fue la 3.0 (liberada en diciembre del 2006).[2] La base de datos 3.0 contiene 155 287 palabras organizadas en 117 659 synsets(grupos de significado) para un total de 206 941 pares de palabras; en forma comprimida tiene 12 megabytes de tamaño.[3] WordNet distingue entre sustantivos, verbos, adjetivos y adverbios porque siguen diferentes reglas gramaticales. No incluye preposiciones, etc. Cada synsets contiene un grupo de palabras que son sinónimos o locuciones (una locución es una secuencia de palabras que unidas toman un significado específico); diferentes significados de una palabra están en distintos synsets. El significado de los synset queda más claro con la definición de glosses (definición y/o frases de ejemplo). Un ejemplo de synset con gloss es:

good, right, ripe – (most suitable or right for a particular purpose; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes")

La mayoría de los synsets están conectados a otros synsets mediante numerosas relaciones semánticas. Están relaciones varían basándose en el tipo de palabra, y se incluyen:

  • Sustantivos
    • hypernyms: Y es un hypernym de X si cada X es un (del tipo de) Y (canino es un hypernym de perro)
    • hyponyms: Y es un hyponym de X si cada Y es un (del tipo de) X (perro es un hyponym de canino)
    • coordinate terms: Y es un coordinate term de X si X y Y comparten un hypernym (lobo es un coordinate term de perro y perro es un coordinate term de lobo)
    • holonym: Y es un holonym de X si X es parte de Y (edificio es un holonym de ventana)
    • meronym:Y es un meronym de X si Y es una parte de X (ventana es una parte de edificio)
  • Verbos
    • hypernym: el verbo Y es un hpernym del verbo X si la actividad X es un (del tipo de) Y (percibir es un hypernym de escuchar)
    • troponym: el verbo Y es un toponym del verbo X si la actividad Y está realizando X de alguna manera (susurrar es un troponym de hablar)
    • entailment: el verbo Y es entailment de X si haciendo X se debe estar haciendo Y (dormir es un entailment de roncar)
    • coordinate terms: son los verbos que comparte un hypernym común (susurrar y gritar)
  • Adjetivos
    • sustantivos relacionados
    • similar a
    • participios de verbos
  • Adverbios
    • La raíz de los adjetivos

Mientras que las relaciones semánticas se aplican a todos los miembros de un synset porque comparten significado, no todos son mutualmente sinónimos, las palabras también pueden estar conectadas a otras palabras a través de relaciones léxicas, incluyendo antónimos. WordNet también provee el polysemy count de una palabra: el número de synsets que contienen la palabra. Si una palabra participa en varios synsets (i.e. tiene varios significados) esa común que unos significados sean más comunes que otros. WordNet los califica por la frecuency score: en el cual varios textos de ejemplo tienen todas las palabras semánticamente etiquetadas en el correspondiente synset, y después a través de un contador se indica la frecuencia en la que una palabra aparece con un significado específico. Las funciones morfológicas del software distribuidas con la base de datos tratan de deducir el lema o raíz de una palabra de la entrada del usuario; solo la raíz de cada palabra es almacenada en la base de datos.

Estructura del conocimiento[editar]

Los sustantivos y los verbos están organizados en jerarquías. Por ejemplo, el primer significado dela palabra perro tendrá la siguiente jerarquía hypernyn; las palabras en el mismo nivel son sinónimos unas de otras. Cada conjunto de sinónimos (synset), tiene un único indexador y comparte sus propiedades, como una definición gloss (o diccionario).

 dog, domestic dog, Canis familiaris
    => canine, canid
       => carnivore
         => placental, placental mammal, eutherian, eutherian mammal
           => mammal
             => vertebrate, craniate
               => chordate
                 => animal, animate being, beast, brute, creature, fauna
                   => ...

En el nivel superior, estas jerarquías están organizadas en tipos básicos, 25 grupos primitivos de sustantivos y 15 de verbos. Estos grupos de lexicographic files están en un nivel de mantenimiento. Estos grupos primitivos están conectados a un nodo raíz abstracto, que ha sido asumido desde algún tiempo por varias aplicaciones que usan WordNet. En el caso de los adjetivos, la organización es diferente, la jerarquía y el concepto involucrado con los lexicographic files, no se aplican de la misma forma que lo hacen para los sustantivos y los verbos. El grafo de sustantivos es mucho más profundo que otras partes del lenguaje. Los verbos tienen una estructura más densa y los adjetivos están organizados en varios clústeres diferentes. Los adverbios están organizados en términos de los adjetivos de los que se derivan, y por tanto heredan su estructura de la de los adjetivos.

Justificación psicológica[editar]

El objetivo de WordNet era desarrollar un sistema que fuera consistente con el conocimiento adquirido a través de los años sobre como los humanos procesan el lenguaje. La afasia anomia (anomic aphasia), por ejemplo, crea una condición que parase dificultar la habilidad de los individuos de nombrar los objetos; esto hace la decisión de particionar las distintas partes del idioma en distintas jerarquías más una decisión de principio que una decisión arbitraria. En el caso de los hyponymy, los experimentos psicológicos revelan que los individuos pueden acceder a las propiedades de los sustantivos más rápido dependiendo de cuando una característica se convierte en una propiedad definitoria. Esto es, los individuos pueden verificar rápidamente que los canarios pueden volar porque un canario es un ave, pero cuesta más trabajo identificar que un canario tiene piel. Esto sugiere que nosotros también almacenamos información semántica en una forma muy parecida a como lo hace WordNet, porque solo retenemos la información más especifica que necesitamos para diferenciar un concepto en particular de otros conceptos similares.[4]

WordNet como una ontología[editar]

La relación hiperónimo/hipónimo entre los synsets puede ser interpretada como una relación de especialización entre categorías conceptuales. En otras palabras, WordNet puede ser interpretado y usado como una ontología en Ciencia de la Computación. Sin embargo para utilizarlo como una ontología debe ser corregido antes de ser usado, ya que contiene cientos de inconsistencias semánticas básicas como (i) la existencia de especializaciones comunes para categorías exclusivas y (ii) redundancias en la jerarquía de especialización. Por tanto, transformar WordNet en una ontología léxica usable para la representación del conocimiento debe normalmente involucrar (i) la distinción de las relaciones de especialización en subtipos de e instancias de relaciones, y (ii) asociar identificadores únicos e intuitivos para cada categoría. Aunque esas correcciones y transformaciones han sido desarrolladas y documentadas como parte de the integration of WordNet 1.7 into the cooperatively updatable knowledge base of WebKB-2, la mayoría de los proyectos alegan rehusar WordNet para aplicaciones basadas en conocimientos (típicamente aplicaciones para la recuperación de información orientada al conocimiento) simplemente rehusándolo directamente. WordNet también ha sido convertido a una especificación formal, por medio de una metodología híbrida bottom-up top-down para extraer automáticamente relaciones de asociación de WordNet, e interpretar estas asociaciones en términos de conjuntos de relaciones conceptuales, formalmente definido en el DOLCE foundational ontology..[5]

Problemas y limitaciones[editar]

A diferencia de otros diccionarios, WordNet no incluye información sobre la etimología, pronunciación y la forma de los verbos irregulares y contiene solo información limitada sobre uso. La información lexicográfica y semántica actual se mantiene en lexicographical files, que son procesados por una herramienta llamada grind para producir la base de datos distribuida. Ambos, el grind y los lexicographer files están disponibles libremente en una distribución separada, pero la modificación y mantenimiento de la base de datos requiere experiencia. A pesar de que WordNet contiene un rango suficientemente amplio de palabras comunes, no cubre vocabulario de un dominio específico. Como está diseñada en primer lugar para actuar como capa subyacente para diferentes aplicaciones, esas aplicaciones no pueden ser usadas en dominios específicos que nos son cubiertos por WordNet. WordNet es el lexicón computacional de Inglés comúnmente más usado para desambiguar el significado de las palabras (word sense disambiguation (WSD)), una tarea que tiene como objetivo asignar el significado más apropiado (i.e. synsets) a las palabras en contexto.

Aplicaciones[editar]

WordNet ha sido usado para diferentes y numerosos propósitos en sistemas de información, que incluyen desambiguación del significado de palabras, recuperación de información, clasificación automática de texto, resumen automático de texto, traducción automática e incluso generación de crucigramas. En la Universidad de Brown, Jeff Stibel, James A. Anderson, Steve Reiss y otros, comenzaron un proyecto llamado Applied Cognition Lab que creaba un desambiguador usando WordNet en 1998. Más tarde el proyecto se integró a la compañía llamada Simpli, de la que actualmente es dueño ValueClick. George Miller se unió a la compañía como miembro del Advisory Board. Simpli construyó un buscador para Internet que utilizaba una base de conocimientos basada principalmente en WordNet para desambiguar y expandir palabras claves y synsets para ayudar en la recuperación de información online. Otro prominente ejemplo del uso de WordNet es determinar la similitud entre palabras. Se han propuesto varios algoritmos, que incluyen considerar la distancia entre las categorías conceptuales de las palabras, así como también considerar la estructura jerárquica de la ontología WordNet. Numerosos algoritmos de similitud entre palabras basados en WordNet están implementados en un paquete Perl llamado WordNet::Similarity, y un paquete en Python llamado NLTK.

Interfaces[editar]

Princeton mantiene una lista de proyectos relacionados que incluye enlaces a algunas de las interfaces de programación de aplicaciones más usadas, que disponen de acceso a WordNet usandos varios lenguajes de programación y ambientes de desarrollo.

Proyectos relacionados y extensiones[editar]

Wordnet está conectado con algunas bases de datos de la Web semántica. WordNet también es reutilizado comúnmente para el mapeo entre las categorías de WordNet (i.e. synsets) y las categorías de otras ontologías. Generalmente, solo las categorías de los niveles superiores de WordNet son correlacionadas.

Global WordNet Association[editar]

La Asociación de WordNet Global ( Global WordNet Association (GWA)) es una organización libre y pública y no comercial que suministra una plataforma para discutir, compartir y conectar wordNets para todas lenguas en el mundo entero. El GWA también promueve la estandarización de WordNet entre idiomas diferentes para asegurar su uniformidad al enumerar los synsets en diferentes idiomas. El GWA mantiene una lista de WordNet desarrollados mundialmente.[6]

Otros Idiomas[editar]

  • WOLF (WordNet Libre du Français), una versión francesa de WordNet.[7]
  • JAWS (Just Another WordNet Subset), otra versión francesa de WordNet[8] desarrollada usando el Wiktionary y los espacios semánticos
  • El proyecto de MultiWordNet,[9] un WordNet plurilingüe que tuvo como objetivo producir a un WordNet italiano enérgicamente alineado con el WordNet de Princeton.
  • El proyecto de EuroWordNet[10] ha producido WordNets para algunas lenguas europeas, conectados entre sí; éstos no están libremente disponibles. El proyecto de WordNet mundial intenta coordinar la producción y conectar los "wordnets" para todos los idiomas.</ref> has produced WordNets for several European languages and linked them together; these are not freely available however. The Global Wordnet project attempts to coordinate the production and linking of "wordnets" for all languages.[11] Oxford University Press, la editorial del Oxford English Dictionary, ha expresado los planes de producir su propio competidor en línea a WordNet.
  • El proyecto de BalkaNet[12] ha producido WordNets para seis lenguas europeas (búlgaro, checo, griego, rumano, turco y serbio). Para este proyecto, el editor de WordNet basado en XML libremente disponible fue desarrollado. Este editor - VisDic - no está más en desarrollo activo, pero todavía es usado para la creación de varios WordNets. Su sucesor, DEBVisDic, es una aplicación cliente-servidor y es usado para editar algunos WordNets (holandés en el proyecto de Cornetto, polaco, húngaro, algunas lenguas africanas, chino).
  • UWN es una base de conocimientos léxica plurilingüe automáticamente formulada que extiende WordNet para cubrir más de un millón palabras en muchas lenguas diferentes.[13]
  • Proyectos como BalkaNet y EuroWordNet hicieron viable crear wordnets independientes vinculados al original. Uno de esos proyectos es Russian WordNet patrocinado por Petersburg State University of Means of Communication[14] o Russnet por la Saint Petersburg State University
  • FinnWordNet es una versión finlandesa del WordNet donde todas anotaciones del WordNet inglés original fueron traducidas.[15]
  • GermaNet es un versión alemán del WordNet desarrollado por la universidad de Tübingen.[16]

Integración de Datos[editar]

  • BabelNet,[17] es una red semántica plurilingüe muy grande con millones de conceptos obtenidos de una integración de WordNet y Wikipedia sobre la base de un algoritmo de correspondencia automático.
  • La ontología SUMO (SUMO)[18] ha realizado un mapeo entre todos los synsets de los WordNet, (incluyendo los sustantivos, los verbos, adjetivos y adverbios), y las clases SUMO. La adición más reciente del mapeo provee enlaces a todos los términos más específicos en la ontología de nivel medio (MILO), que extiende SUMO.
  • OpenCyc,[19] es una ontología y una base de conocimientos, tiene 12,000 términos vinculados con conjuntos de sinónimo de WordNet.
  • DOLCE,[20] es el primer módulo de WonderWeb Foundational Ontologies Library (WFOL). OntoWordNet [29] es el resultado de un esfuerzo experimental de alinear el nivel superior de WordNet con DOLCE. Se cree que tal alianza podría resultar en un WordNet "Ontológicamente hecho más atractivo", resultando ser conceptualmente más difícil, cognoscitivamente transparente, y eficientemente explotable en algunas aplicaciones.
  • DBpedia,[21] una base de datos de la información estructurada, también está vinculada con WordNet.
  • The eXtended WordNet[22] es un proyecto de la Universidad de Texas en Dallas que aspira a mejorar WordNet descomponiendo gramaticalmente las glosses, haciendo la información, semánticamente contenía en estas definiciones, disponibles para los sistemas de procesamiento de conocimientos automáticos. Está también libremente disponible bajo una licencia similar a WordNet.
  • El proyecto GCIDE produjo un diccionario combinando el diccionario de un Webster de dominio público de 1913 con algunas definiciones de WordNet y material proveído por voluntarios. Fue dado a conocer bajo la licencia copyleft GPL.
  • ImageNet es una base de datos imágenes organizada de acuerdo a la jerarquía de WordNet (actualmente solamente los sustantivos), en que cada nodo de la jerarquía es retratado por centenares de imágenes.[23] Actualmente tiene un promedio de más de quinientas imágenes por nodo.
  • BioWordnet, una ampliación biomédica de WordNet fue abandonada debido a asuntos de la estabilidad de versiones.[33]

WikiTax2WordNet, es un mapeo entre los synsets de WordNet y las categorías de Wikipedia.[24]

  • WordNet + +, un recurso que incluye millones de aristas semánticos sacadas de Wikipedia y que conecta pares de synsets de WordNet.[25]
  • SentiWordNet, un recurso para aplicaciones de minería de opinión de soporte obtenidas etiquetando todo los synsets de WordNet3.0 de acuerdo con sus grados aproximados de positividad, negatividad, y neutralidad.[26]
  • ColorDict, es una aplicación de Android para teléfonos móviles que usan base de datos de WordNet y otros, de la misma manera que Wikipedia.

Otros proyectos[editar]

  • FrameNet es un proyecto similar a WordNet. Consta de un lexicón que es basado en poner anotaciones en más de 100,000 oraciones con sus propiedades semánticas
  • Un proyecto nuevo titulado wordNet (no WordNet) es un buscador de Internet que contiene mapas de la Internet, y no solo tiene correspondencias de palabra (como WordNet) sino también frases, conceptos, y mapeo de sitios web.[27]
  • Lexical markup framework (LMF) es una obra en marcha dentro de ISO / TC37 para definir un marco normalizado común para la construcción de lexicones, incluyendo WordNet.
  • UNL Programme es un proyecto bajo los auspicios de la ONU que tiene como objetivo consolidar los datos de léxicos y semánticos de muchas lenguas para ser usado en la traducción automática y los sistemas de extracción de información.

Distribuciones[editar]

La base de datos de WordNet es distribuida como un paquete de diccionario (generalmente un archivo único) para los siguientes software:

Referencias[editar]

  1. G. A. Miller, R. Beckwith, C. D. Fellbaum, D. Gross, K. Miller. 1990. WordNet: An online lexical database. Int. J. Lexicograph. 3, 4, pp. 235–244.
  2. Current WordNet version
  3. WordNet Statistics
  4. Collins A., Quillian M. R. 1972. Experiments on Semantic Memory and Language Comprehension. In Cognition in Learning and Memory. Wiley, New York.
  5. A. Gangemi, R. Navigli, P. Velardi. The OntoWordNet Project: Extension and Axiomatization of Conceptual Relations in WordNet, In Proc. of International Conference on Ontologies, Databases and Applications of SEmantics (ODBASE 2003), Catania, Sicily (Italy), 2003, pp. 820–838.
  6. http://www.globalwordnet.org/gwa/wordnet_table.html
  7. S. Benoît, F. Darja. 2008. Building a free French wordnet from multilingual resources. In Proc. of Ontolex 2008, Marrakech, Maroc.
  8. C. Mouton, G. de Chalendar. 2010.JAWS: Just Another WordNet Subset. In Proc. of TALN 2010.
  9. E. Pianta, L. Bentivogli, C. Girardi. 2002. MultiWordNet: Developing an aligned multilingual database. In Proc. of the 1st International Conference on Global WordNet, Mysore, India, pp. 21–25.
  10. P. Vossen, Ed. 1998. EuroWordNet: A Multilingual Database with Lexical Semantic Networks. Kluwer, Dordrecht, The Netherlands.
  11. http://www.globalwordnet.org/
  12. D. Tufis, D. Cristea, S. Stamou. 2004. Balkanet: Aims, methods, results and perspectives. A general overview. Romanian J. Sci. Tech. Inform. (Special Issue on Balkanet), 7(1-2), pp. 9–43.
  13. http://www.mpi-inf.mpg.de/yago-naga/uwn
  14. http://www.pgups.ru/abitur/inostrancam/inter/ruwordnet/
  15. http://www.ling.helsinki.fi/en/lt/research/finnwordnet/
  16. GermaNet
  17. R. Navigli, S. P. Ponzetto. BabelNet: Building a Very Large Multilingual Semantic Network. Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), Uppsala, Sweden, July 11–16, 2010, pp. 216–225.
  18. A. Pease, I. Niles, J. Li. 2002. The suggested upper merged ontology: A large ontology for the Semantic Web and its applications. In Proc. of the AAAI-2002 Workshop on Ontologies and the Semantic Web, Edmonton, Canada.
  19. S. Reed and D. Lenat. 2002. Mapping Ontologies into Cyc. In Proc. of AAAI 2002 Conference Workshop on Ontologies For The Semantic Web, Edmonton, Canada, 2002
  20. Masolo, C., Borgo, S., Gangemi, A., Guarino, N., Oltramari, A., Schneider, L.S. 2002. WonderWeb Deliverable D17. The WonderWeb Library of Foundational Ontologies and the DOLCE ontology. Report (ver. 2.0, 15-08-2002)
  21. C. Bizer, J. Lehmann, G. Kobilarov, S. Auer, C. Becker, R. Cyganiak, S. Hellmann, DBpedia – A crystallization point for the Web of Data. Web Semantics, 7(3), 2009, pp. 154–165
  22. S. M. Harabagiu, G. A. Miller, D. I. Moldovan. 1999. WordNet 2 – A Morphologically and Semantically Enhanced Resource. In Proc. of the ACL SIGLEX Workshop: Standardizing Lexical Resources, pp. 1–8.
  23. J. Deng, W. Dong, R. Socher, L. Li, K. Li, L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In Proc. of 2009 IEEE Conference on Computer Vision and Pattern Recognition
  24. M. Poprat, E. Beisswanger, U. Hahn. 2008. Building a BIOWORDNET by Using WORDNET’s Data Formats and WORDNET’s Software Infrastructure – A Failure Story. In Proc. of the Software Engineering, Testing, and Quality Assurance for Natural Language Processing Workshop, pp. 31–39.
  25. S. P. Ponzetto, R. Navigli. Knowledge-rich Word Sense Disambiguation rivaling supervised systems. In Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), 2010, pp. 1522–1531.
  26. S. Baccianella, A. Esuli and F. Sebastiani. SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. In Proceedings of the 7th Conference on Language Resources and Evaluation (LREC'10), Valletta, MT, 2010, pp. 2200–2204.
  27. http://wordnet.cemetech.net/?page=about
  28. StarDict Downloadable Dictionaries
  29. Babylon WordNet
  30. Lingoes WordNet

Enlaces Externos[editar]