Generación de lenguajes naturales

De Wikipedia, la enciclopedia libre

Es el proceso de la construcción de un texto en lenguaje natural para la comunicación con fines específicos. Texto se refiere aquí a un término general y repetitivo aplicable a expresiones, o partes de ellas, de cualquier tamaño, tanto habladas como escritas. En el ser humano, el que sea hablado o escrito tiene consecuencias en el nivel deliberativo y de edición que ha tenido lugar; si el lenguaje es hablado puede faltar revisión ya que la mayoría de los programas actuales pueden hablar, si bien casi todos sólo presentan palabras en una pantalla. La decisión de revisar o usar la palabra escrita o hablada no es una opción para la generación del programa en la actualidad; pero se debe abordar el tema en el diseño de un programa en particular.

El principal énfasis de la generación de lenguajes naturales no es sólo el facilitar el uso del ordenador sino también el desarrollar una teoría computacional de la capacidad del lenguaje humano. En este sentido constituye una herramienta para extender, aclarar y verificar teorías que se han formulado en lingüística, psicología y sociología acerca de la comunicación entre humanos.

Un generador de lenguaje natural típicamente tiene acceso a un gran conjunto de conocimiento del cual ha de seleccionar información para presentar a los usuarios en varias formas. El generar texto es, pues, un problema de toma de decisiones con múltiples restricciones: de conocimiento proposicional, de herramientas lingüísticas disponibles, de los objetivos de la comunicación del usuario a quien se dirige el texto, y de la situación y del discurso pasado. Se trata de identificar los factores involucrados en este proceso y de determinar la mejor forma de representar estos factores y sus dependencias.

El proceso de generación de textos naturales[editar]

Para generar un texto, un sistema debe escoger cierta información de la base de conocimiento, decidir cómo organizarla, y determinar cómo producir el texto en lenguaje natural, lo cual incluye el decidir acerca de la entrada del léxico y de las estructuras sintácticas.

Esto hace que el proceso de generación se divida en dos partes: una componente de planificación del texto y una componente de generación propiamente dicha. Ésta a su vez se divide en dos tareas: la de escoger los objetos del léxico y la de efectuar selecciones gramaticales. En todo esto se trata de escoger apropiadamente para expresar lo mejor posible el significado deseado.

Planificación de textos[editar]

Cuando se hace de arriba abajo, se generan textos para sistemas complejos, en sistemas expertos para dialogar con una gran variedad de usuarios. El proceso de planificación es algo restrictivo ya que no puede alcanzar planificación oportunista. En algunos casos se incorporan métodos de abajo a arriba, para aprovecharse de planificación oportunista.

Generación de textos[editar]

  • Elección de léxico. En este campo se trabaja desde los puntos de vista lingüístico y computacionales. Este problema es difícil. En algunos casos se trata al nivel de la representación conceptual sobre cuya base opera el generador. Este método puede resultar en una arquitectura de procesamiento más simple. En otros casos se trata de que la elección de léxico no ocurra de una forma aislada sino como parte del problema de la elección lexicogramatical. En otros casos se han desarrollado generadores basados en la teoría significado-texto, donde el léxico desempeña un papel central, que influye en el proceso de generación.
  • Recursos gramaticales. En este campo la gramática a utilizar es una componente importante del sistema, y toma decisiones de cómo expresar sintácticamente la información deseada. En algunos casos se trata de una gramática que tenga en cuenta las correferencias del discurso. En otros casos la gramática se diseña para manejar las necesidades de la generación de oraciones incrementalmente.
  • Morfología. Este campo trata de la formación de la palabra (inflexión, palabras derivadas, palabras compuestas). Se basa en un léxico que contiene entradas para un conjunto de palabras y reglas para las inflexiones.

Véase también[editar]

Referencias[editar]