Usuario discusión:Miguel olivares

Extracción y Recuperación de la Información mediante Patrones.

La cantidad documentos disponibles en formato electrónico hace imposible su análisis, los sistemas de extracción de información permiten estructurar esa información para un dominio especifico, lo que convierte el problema de analizar documentos en consultar una base de datos. ¿qué es el reconocimiento basado en patrones?

El reconocimiento basado en patrones clasifica objetos en un número determinado de clases o categorías. De esta forma un objeto X puede ser descrito con un vector de p atributos:

x = [ x1, x2, ..., xp]

Desde este punto de vita, la extracción de información se puede ver como, una tarea de clasificación según distintos patrones. La unidad de información que es candidata a ser extraída o clasificada semánticamente, es descrita por un conjunto de atributos que atienden a distintos patrones, estos son:

Léxicos: Las características léxicas se refieren a los atributos que tienen por solas las palabras en un texto, sin necesidad de entender su contexto.

Semánticos: El patrón sintáctico más usado en la recuperación de información es el llamado part-of-speech (POS) de una palabra, es decir, las partes del habla que son: sustantivo, verbo, artículo, adjetivo, etc.

Sintácticos: Los patrones semánticos se usan para la clasificación de unidades simples o múltiples de información.

De Discurso: El uso de patrones de discurso para la extracción y recuperación de información, está referido a las características de unidades de información dentro de un marco de discurso, o dentro de un marco de escritura o de estilo.

Por último se expone una web relacionada con este proceso de extracción y recuperación de información mediante patrones:

Extracción y recuperación de información mediante patrones