Desambiguación lingüística

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

En lingüística computacional, la desambiguación del significado de la palabra es un problema abierto de procesamiento de lenguaje natural, que incluye el proceso de identificar qué sentido de palabra está usada en los términos de una oración, cuando la palabra en cuestión tiene polisemia, es decir, pluralidad de significados.

La solución de este problema afecta a otras tareas de la ligüistica computacional, tales como el discurso, la mejora de la relevancia en los motores de búsqueda, la resolución de referencia, la coherencia (lingüística), la inferencia, y otros.

Dificultades[editar]

Considere dos ejemplos de los diferentes significados que existen para la palabra "vela":

  1. Cilindro de cera o sebo, atravesado por una mecha que se prende para alumbrar.
  2. Pieza de lona o lienzo fuerte que, atada a las vergas, recibe el viento que impulsa la nave.

y las oraciones:

  1. Puso dos velas a San Pancracio
  2. Los egipcios fueron los primeros constructores de barcos de vela de los que se tiene noticia.

Para un ser humano, es evidente que en la primera frase se utilice la palabra "vela", como primer significado, y en la segunda frase, la palabra "vela" está siendo utilizada con el segundo. El desarrollo de algoritmos para reproducir esta capacidad humana (desambiguar el significado) a menudo puede ser una tarea muy difícil.

En casos como el presentado al menos algunos significados son diferentes. Sin embargo, en otros casos los diferentes significados pueden estar estrechamente relacionados (al ser un significado una extensión metafórica metonímica de otro) y, en tales casos, la división de las palabras a sus significados, se hace mucho más difícil aún.

Los diccionarios y los tesauros proporcionan diferentes divisiones de las palabras en sus significados. Una solución que algunos investigadores han usado es elegir un diccionario particular, y sólo utilizar el conjunto de significados allí registrados. Sin embargo, los resultados de búsqueda al utilizar distinciones más amplias en los significados han sido mucho mejores.

Otro problema es la varianza del juez interno. Los sistemas de desambiguación del significado de la palabra (WSD por sus siglas en inglés, word sense disambiguation), son por lo general probados al comparar sus resultados con los de un ser humano. Sin embargo, si se da una lista de significados y oraciones, los seres humanos no siempre coincidirán en qué palabra pertenece a qué significado. No se puede esperar que una computadora provea un mejor rendimiento en esa tarea que un humano (de hecho, ya que los seres humanos sirven como estándar, que el computador sea mejor que el ser humano no tiene sentido), por lo que el rendimiento humano funciona como un límite superior. El rendimiento humano, sin embargo, es mucho mejor en granularidad gruesa que en granularidad fina, así que otra vez ésta es la razón por lo que la investigación sobre las distinciones sobre granularidad gruesa es más útil.

Algunos investigadores sobre inteligencia artificial como Douglas Lenat, argumentan que no se pueden analizar los significados de las palabras sin alguna forma de la ontología de sentido común. Por ejemplo: comparar estas dos oraciones: "Jill y María son hermanas." - (Son hermanas entre sí). "Jill y María son madres." - (Cada una es independientemente una madre).

Para identificar correctamente los significados de las palabras hay que conocer los hechos de sentido común. Además, a veces el sentido común es necesario para eliminar la ambigüedad de palabras tales como los pronombres en caso de que tengan anáforas o catáforas en el texto.

Enfoques[editar]

Como en todo procesamiento del lenguaje natural, existen dos enfoques principales para la desambiguación del significado de la palabra: enfoque profundo y enfoque superficial. El enfoque profundo supone el acceso a un amplio conjunto de conocimiento del mundo, que permiten determinar en qué sentido se utiliza la palabra. Estos enfoques no son muy exitosos en la práctica, principalmente porque tal cuerpo de conocimientos no existe en un formato legible por el computador, fuera de ámbitos muy limitados. Sin embargo, si ese conocimiento sí existe, entonces los enfoques profundos serían mucho más precisos que los enfoques superficiales. Además, hay una larga tradición en la lingüística computacional, de tratar estos enfoques en términos de conocimientos codificados y en algunos casos, es difícil decir con claridad si el conocimiento en cuestión es lingüístico o conocimiento del mundo. El primer intento fue el de Margaret Masterman y sus colegas, en la Unidad de investigación del lenguaje de Cambridge en Inglaterra, en la década de 1950. Este intento de utilizar como dato una tarjeta perforada, versión del diccionario de sinónimos de Roget y sus cabezas numeradas, como un indicador de los temas y espera para las repeticiones en el texto, utilizando un algoritmo de intersección de conjuntos. No tuvo mucho éxito, como se describe en detalle en Wilks, Y. et al., 1996, pero tenía una relación fuerte con el trabajo venidero, especialmente la máquina de Yarowsky para el aprendizaje de optimización de un método de diccionarios de sinónimos en la década de 1990.

Los enfoques superficiales no tratan de entender el texto, sino que consideran las palabras circundantes, utilizando la información como "si vela tiene las palabras mar o la pesca cerca, probablemente lo es en el sentido de los peces, y si vela tiene las palabras música o canción cerca, es probable que sea en el sentido de la música". Estas reglas se pueden obtener automáticamente por la computadora, utilizando un corpus de formación de palabras con el sentido de las palabras. Este enfoque, en teoría tan poderoso como los enfoques profundos, da mejores resultados en la práctica, debido al limitado conocimiento del mundo del ordenador. Sin embargo, puede ser confundido por otras frases.

Estos criterios establecen normas de trabajo mediante la definición de N palabras del contenido en torno a la ambigüedad de cada palabra en el cuerpo, y el análisis estadístico de las N palabras alrededor. Dos enfoques poco profundos utilizados son los clasificadores de Bayes y árboles de decisión. En una investigación reciente, los métodos basados en el kernel tales como máquinas de soporte vectorial, han demostrado un rendimiento superior en el aprendizaje supervisado. Pero en los últimos años, no ha habido ninguna mejora en el rendimiento de cualquiera de estos métodos.

Es instructivo comparar la palabra problema en sentido de desambiguación con el problema de la parte del discurso. Ambas implican ambigüedades o etiquetado de las palabras, ya sea con los sentidos o de partes de la oración. Sin embargo, los algoritmos utilizados para uno no suelen funcionar bien para el otro, principalmente porque la parte del discurso de una palabra está determinada principalmente por las dos o tres inmediatamente adyacentes, mientras que el sentido de una palabra puede ser determinada por palabras más alejadas. La tasa de éxito para una parte de los algoritmos de discurso es en la actualidad mucho mayor que la de WSD (la técnica está en torno al 95% de precisión o mejor, en comparación con menos del 75% de precisión en la desambiguación de palabras con aprendizaje supervisado). Estas cifras son típicas en inglés, y pueden ser muy diferentes en otros idiomas.

Otro aspecto de la desambiguación del sentido de la palabra que la hace diferente es la disponibilidad de datos de entrenamiento. Mientras que los usuarios pueden memorizar todas las posibles palabras de las partes del discurso, es imposible para las personas memorizar todos los sentidos que una palabra puede tener. Así, muchos algoritmos utilizan semi-aprendizaje supervisado en la desambiguación en el sentido de la palabra, que permite tanto los datos etiquetados como los que no lo están. El algoritmo de Yarowsky fue un ejemplo de ese tipo de algoritmo, en el cual las palabras tienden a exhibir un solo sentido en el discurso más concreto y en una colocación determinada.

Véase también[editar]

Notas[editar]

Referencias[editar]

  • Wilks, Y., Slator, B., Guthrie, L. (1996) Electric Words: dictionaries, computers and meanings. Cambridge, MA: MIT Press.
  • X.Y.Chou, (2007), Yarowsky’s unsupervised algorithm, Oxford Computing Lab.

Enlaces externos[editar]