Extracción de la información

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

La extracción de la información (de sus siglas en inglés IE, Information Extraction) es un tipo de recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora.

Una aplicación típica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la información extraída. Las tendencias actuales en relación con la IE utilizan técnicas de procesamiento de lenguaje natural que se centran en áreas muy restringidas. Por ejemplo, la Message Understanding Conference (MUC), o Conferencia para la Comprensión de Mensajes es una competición que se ha centrado en los siguientes aspectos durante los últimos años:

  • MUC-1 1987, MUC-2 1989: Mensajes para operaciones navales.
  • MUC-3 1991: Terrorismo en países latinoamericanos.
  • MUC-5 1993: Microelectrónica.
  • MUC-6 1995: Nuevos artículos a cerca de los cambios en la gerencia.
  • MUC-7 1998: Informes de lanzamiento de satélites.

Tareas típicas de la IE[editar]

  • Reconocimiento de nombres de entidades (NER, por sus siglas en inglés). Busca localizar y clasificar elementos atómicos en texto sobre categorías predefinidas como nombres de personas, organizaciones, lugares, expresiones de horas, cantidades, valores monetarios, porcentajes, etc.
  • Resolución de la correferencia (CR, por sus siglas en inglés). Identifica distintos sintagmas nominales que se refieren al mismo objeto. La anáfora es un tipo de correferencialidad.
  • Extracción de terminología. Identifica y extrae candidatos a términos de los textos explorados.
  • Extracción de relaciones. Requiere la detección y clasificación de las menciones a relaciones semánticas (como el número de teléfono de un cliente o la dirección de un cliente).

Véase también[editar]

Enlaces externos[editar]