Sumarización automática

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

La sumarización automática se entiende como el proceso de reducir un texto con un programa computacional, con el fin de crear un resumen con los puntos más importantes del documento original. El gran volumen de información y la sobrecarga que existe de este recurso en el mundo actual, han incrementado el interés en la sumarización automática y sus beneficios. Variables tales como la longitud, el estilo de escritura y la sintaxis deben ser tenidas en cuentas por aquellas tecnologías capaces de obtener resúmenes coherentes. Ejemplos del uso de dichas tecnologías lo constituyen los motores de búsqueda tales como Google, y la sumarización de documentos.

Generalmente, existen dos aproximaciones a la sumarización automática: extracción y abstracción. Los métodos de extracción trabajan seleccionando un subconjunto de palabras, frases u oraciones, presentes en el texto original, para colocarlas en el resumen o sumario. En contraste, los métodos de abstracción trabajan en la representación semántica interna, y luego usan técnicas de generación de lenguaje natural para crear resúmenes cercanos a los que un humano generaría. Tales métodos pueden contener palabras que no están presentes en el documento original. El estado del arte de los métodos de abstracción es aún débil, luego muchas investigaciones se han centrado en los métodos de extracción.

Índice

Métodos[editar]

Los métodos de sumarización automática incluyen sumarización basada en extracción, sumarización basada en abstracción, sumarización basada en máxima entropía y sumarización supervisada.

Sumarización basada en extracción.[editar]

Dos tipos particulares de sumarización encontrados a menudo en la literatura son extracción de frases principales, cuyo objetivo es seleccionar palabras o frases individuales para “etiquetar” un documento, y sumarización de documentos, cuyo objetivo es seleccionar oraciones enteras para crear sumarios formados por párrafos cortos.

Sumarización basada en abstracción.[editar]

Las técnicas de extracción principalmente copian la información estimada por el sistema como más importantes para ser sumarizada (por ejemplo clausulas principales, oraciones o párrafos), mientras que la abstracción involucra parafrasear secciones del documento fuente. En general, la abstracción puede condensar un texto mejor que la extracción, pero los programas que pueden realizar esta actividad son difíciles de desarrollar, puesto que necesitan usar tecnologías de generación de lenguaje natural, las cuales constituyen por si solas un área de desarrollo.

Mientras que algunos trabajos han sido realizados en la sumarización abstracta (creación de un sumario abstracto como lo hace un humano), la mayoría de los sistemas de sumarización son de extracción (selección de un subconjunto de sentencias para colocarlas en los resúmenes).

Sumarización basada en máxima entropía[editar]

Aunque la sumarización abstracta es el objetivo de investigación de la sumarización automática, muchos de los sistemas prácticos están basados en alguna forma de sumarización por extracción. Las oraciones extraídas pueden formar ellas mismas sumarios válidos, o formar una base para futuras operaciones de condensación. Además la evaluación de sumarios puede ser automatizada, puesto que una tarea de clasificación es esencial. Durante los talleres sobre evaluación de DUC 2001 y 2002, TNO desarrolló un sistema de extracción de oraciones para la sumarización de múltiples documentos en el dominio de la noticias. El sistema fue desarrollado sobre un sistema híbrido usando un clasificador bayesiano y un modelo de lenguaje estadístico para modelar las características notables. Aunque el sistema exhibió buenos resultados se quería explorar la efectividad de un clasificador de máxima entropía (ME) para la tarea de sumarización, ya que ME es conocido por ser robusto para tratar características dependientes. ME también fue aplicado exitosamente para la sumarización en el dominio de las noticias.

Sumarización supervisada[editar]

Las técnicas de aprendizaje automatizado estrechamente relacionadas con campos como la recuperación de información y la minería de texto, han sido satisfactoriamente adaptadas para ayudar en el proceso de sumarización automática.

Aparte de la Sumarización Completamente Automatizada (FAS = Fully Automated Summarizers), existen sistemas que ayudan a los usuarios en el proceso de sumarización (MAHS = Machine Aided Human Summarization), por ejemplo destacando pasajes candidatos a incluir en el resumen, y existen sistemas que dependen de un primer procesamiento por parte de los humanos (HAMS = Human Aided Machine Summarization).

Aplicaciones[editar]

Existen diferentes tipos de sumarios dependiendo de los objetivos que tienen los programas de sumarización para realizar un resumen de un texto, por ejemplo los sumarios genéricos o los sumarios relevantes a una consulta (llamados también sumarios basados en consultas).

Los sistemas de sumarización son capaces de generar ambos, sumarios de textos relevantes a una consulta y sumarios genéricos generados automáticamente, en dependencia de las necesidades del usuario. La sumarización de documentos multimedia, por ejemplo videos y fotos, es también posible.

Algunos sistemas generan un sumario basado en un solo documento, mientras que otros pueden utilizar múltiples fuentes de documentos (por ejemplo un cluster que incluya registros históricos de noticias de un mismo tópico) Estos sistemas son conocidos como sistemas de sumarización multidocumentos.

Extracción de frases principales[editar]

Descripción de la tarea y un ejemplo[editar]

Generalmente, se posee una pieza de texto, por ejemplo un artículo periodístico, y se debe producir una lista de palabras claves o frases principales que capturen el tópico principal que se discute en el mismo. En el caso de los artículos de investigación, muchos autores facilitan manualmente las palabras claves, pero este no es el caso de la mayoría de los textos. Por ejemplo, los artículos de noticias raramente tienen adjunto las palabras claves, pero podría resultar útil obtenerlas automáticamente para ser usados en aplicaciones discutidas a continuación.

Consideremos el ejemplo tomado de un artículo de noticias:

Más de cien mil tortugas fueron liberadas en las aguas dulces del río Iténez, frontera entre Brasil y Bolivia, con el fin de proteger a esta especie que está en peligro de extinción por la excesiva comercialización de sus huevos y su carne. En el acto realizado en las playas del río Iténez dentro del área protegida Parque Departamental y Área Natural de Manejo Integrado Iténez del departamento del Beni, participó el vicepresidente de Bolivia, Álvaro García Linera.

Un extractor de frases principales posiblemente extraiga: Álvaro García Linera, río Iténez, cien mil tortugas fueron liberadas. Estas están presentes en el texto. En contraste, un sistema de extracción abstracta de alguna forma interiorizaría el contenido y las frases generadas posiblemente serían más descriptivas y más parecidas a lo que un humano generaría: protección de las tortugas, negligencia humana pone en peligro la existencia de las tortugas, acciones de protección y cuidado de la naturaleza. Se puede notar que estas frases no están presentes en el texto y requieren una comprensión de este, lo cual hace difícil para las computadoras producir tales frases.

Al obtener las frases principales se puede mejorar la búsqueda de documentos al proporcionar un breve resumen de los mismos. También son útiles en la recuperación de información-si los documentos tienen asociados las frases principales, un usuario puede realizar búsquedas más confiables por frases principales que por búsquedas de texto completo. También, la extracción de frases principales puede ser útil en la generación de índices para largos cuerpos de textos.

Extracción de frases principales como aprendizaje supervisado[editar]

Comenzando con el artículo Turney, muchas investigaciones se han aproximado a la extracción de frases principales como un problema de aprendizaje supervisado. .[1] [2] [3] Dado un documento, se construye un ejemplo para cada unigramas, bigramas y trigramas encontrado en el texto (otras unidades textuales también son posibles, como será discutido a continuación). Luego se computan varias características descriptivas de cada ejemplo (por ejemplo, ¿Qué frases comienzan con mayúsculas?). Se asume que son conocidas las frases principales de los documentos entrenantes, utilizando estas frases se pueden asignar etiquetas positivas o negativas para los ejemplos.

Luego los clasificadores pueden aprender en función de las características de los textos y discriminar entre ejemplos negativos y posibles. Algunos clasificadores realizan una clasificación binaria para un ejemplo testeado, mientras que otros asignan probabilidades a las frases. Por ejemplo del ejemplo anterior se puede aprender que las frases que comienzan con mayúsculas pueden ser frases principales. Después de entrenar, se pueden seleccionar frases principales para testear los documentos de la siguiente manera. Se aplica la misma estrategia de generación de ejemplos para los documentos de prueba, luego se corre cada ejemplo. Se pueden determinar las frases principales mirando las decisiones dadas por el clasificador binario o las probabilidades o el modelo aprendido. Si las probabilidades son dadas, un umbral es utilizado para seleccionar las frases principales.

Los sistemas encargados de extraer frases principales por lo general son evaluados usando la precisión y el recobrado. La precisión mide cuantas frases propuestas son realmente correctas. El recobrado mide cuantas frases de las correctas en el sistema son brindadas. Las dos medidas pueden ser combinadas en la F-Medida, la cual combina armónicamente las dos (F=2PR/(P+R)). Las comprobaciones entre las frases propuestas y las conocidas pueden ser chequeadas después de procesos de lematización u otras estrategias de normalización de textos.

Elecciones de diseño[editar]

Para diseñar sistemas de extracción de frases principales supervisados se necesita tener en cuenta varias cuestiones (algunas aplicadas también en los sistemas no supervisados).

Ejemplos[editar]

La primera elección es exactamente como generar ejemplos. Turney y otros investigadores han utilizado todos los posibles unigramas, bigramas, y trigramas sin intervención de los puntos de puntuación y después de haber removido las stopwords. Hulth mostró que se pueden obtener algunas mejoras seleccionando ejemplos que sean secuencias de tokens que se correspondan a cierto patrón de las partes de discurso, por ejemplo sintagmas nominales. Idealmente, los mecanismos para generar ejemplos producen todas las frases principales conocidas como candidatas, pero a menudo este no es el caso. Por ejemplo, si solamente se usan unigramas, bigramas, y trigramas, entonces nunca sería posible extraer frases que tuvieran cuatro palabras. De esta forma el recobrado podría verse afectado. Sin embargo generar muchos ejemplos también podría afectar la precisión.

Características[editar]

Se necesita también crear características que describan los ejemplos y capturen la información suficiente para que los algoritmos de aprendizaje puedan discriminar entre frases principales y frases no principales. Generalmente estas características involucran varias frecuencias de ocurrencia de los términos (cuantas veces aparece en el texto actual o en el corpus de estudio),la longitud de los ejemplos, la posición relativa de la primera ocurrencia, varias características sintácticas booleanas (contiene mayúsculas) etc. El artículo Turney usa acerca de 12 de estas características. Hulth usa un conjunto reducido derivado del artículo Turney , este conjunto es s encontrado útil en los algoritmos de extracción de frases principales (KEA= Keyphrase Extraction Algorithm).

Cantidad de frases principales a retornar[editar]

Al final, los sistemas deben retornar una lista de frases principales para un documento, luego se debe tener una forma de determinar la cantidad a retornar. Conjunto a los métodos (es decir, usando diferentes clasificadores) que han sido usados para producir umbrales numéricos los usuarios pueden definir el número de frases a retornar. Esta técnica es usada por Turney con C4.5 árboles de decisiones. Hulth utiliza un clasificador binario, y el algoritmo implícitamente determina el número apropiado.

Algoritmos de aprendizaje[editar]

Una vez creados los ejemplos y características, se necesita aprender a predecir frases principales. Virtualmente cualquier algoritmo supervisado puede ser usado, árboles de decisión, Bayes, y reglas de inducción. En el caso del algoritmo Turney's GenEx es usado para aprender parámetros para algoritmos de extracción de frases principales en dominios específicos. El sistema sigue una serie de heurísticas para identificar las frases principales. Un algoritmo genético optimiza los parámetros de estas heurísticas para mejorar el desempeño con los documentos entrenados con las frases conocidas.

Extracción no supervisada de frases principales: TextRank[editar]

Mientras que los métodos supervisados poseen características que le permiten caracterizar las frases principales mediante reglas, requieren una gran cantidad de documentos entrenantes. Además entrenamientos en un dominio específico tienden a particularizar el proceso de extracción a ese dominio, luego los clasificadores resultantes no son necesariamente portables, como los resultados de Turney han demostrado. La extracción no supervisada remueve la necesidad de los documentos entrenantes. Se aproxima al problema desde un ángulo diferente, en vez de tratar, explícitamente, aprender los atributos que caracterizan a las frases principales, el algoritmo TextRank[4] explota la estructura del texto para determinar las frases principales que aparecen como centrales al texto, en la misma manera que PageRank selecciona páginas Web importantes. Recordar que este es basado en la noción de prestigio y recomendación de las redes sociales. De esta forma TextRank no necesita basarse en documentos entrenados con anterioridad, en cambio puede ser utilizado en cualquier pieza de texto, y producir una salida simplemente basada en la estructura del texto. Luego este algoritmo es fácilmente portable a otros dominios y lenguajes.

TextRank es un algoritmo de propósito general basado en grafos para procesar el lenguaje natural (NLP). Esencialmente, utiliza PageRank sobre un grafo especialmente diseñado para las tareas particulares de NLP. Para la extracción de frases principales, construye un grafo usando un conjunto de unidades textuales como vértices. Las aristas representan medidas semánticas o de similaridad lexical entre los vértices. A diferencia de PageRank, las aristas son tipícamente no dirigidas, y pueden poseer pesos asociados que reflejan el grado de similaridad.

Una vez que el grafo es construido es usado en forma de matriz estocástica, combinado con un factor de amortiguación (como en un modelo aleatorio), y un ranking sobre los vértices es obtenido encontrando el eigenvector correspondiente para el valor propio asociado(es decir: la distribución estacionaria para un camino random en el grafo).

Elecciones de diseño[editar]

¿Qué deben ser los vértices?[editar]

Los vértices deben corresponderse con lo que queremos dotar de un rango. Potencialmente, se puede proceder de forma semejante a los métodos supervisados y asociar un vértice a cada unigrama, bigrama, trigrama, etc. Sin embargo para mantener el grafo pequeño, se decide ordenar individualmente los unigramas en un primer paso, y luego incluir un segundo paso que mezcle los unigramas adyacentes sobresalientes para formar frases de mayor longitud. Esto produce el efecto de crear frases de longitud arbitraria. Por ejemplo, si encontramos que "avanzado", "natural", "lenguaje", and "procesamiento" son sobresalientes en el resultado obtenido, se puede buscar en el texto original y observar cuales de estas palabras aparecen juntas y formar de esta forma frases que las utilicen. Notar que los unigramas colocados en el grafo pueden corresponderse a partes del discurso. Se recomienda que los adjetivos y sustantivos son los mejores para incluir. Luego, los conocimientos lingüísticos entran a jugar su papel.

¿Cómo deben crearse las aristas?[editar]

Las aristas son creadas basadas en la coocurrencia en la aplicación de TextRank. Dos vértices son conectados por una arista si los unigramas aparecen en una ventana de longitud N (de 2 a 10 por lo general) en el texto original. Así, "natural" y "lenguaje" pueden ser conectadas en un texto que hable sobre NLP. "Natural" y "procesamiento" también porque podrían aparecer en la misma cadena de N palabras. La construcción de estas aristas representa la noción de " cohesión de texto", y la idea de que las palabras que aparecen cerca están relacionadas conceptualmente y se recomiendan unas a otras frente al lector.

¿Cómo son formados finalmente las frases principales?[editar]

Puesto que este método jerarquiza vértices individuales, se necesita una forma de establecer un umbral para limitar el número de frases formadas. La técnica utilizada es fijar un contador T especificado por el usuario que representa la fracción de vértices sobre el total existente en el grafo. Luego los T superiores vértices son seleccionados basados en sus probabilidades. Un procesamiento es aplicado posteriormente para mezclar instancias adyacentes de estos unigramas. Como resultado, potencialmente, más o menos de T frases finales son producidas, pero el número debe ser más o menos proporcional a la longitud del texto original.

¿Por qué funcionan?[editar]

No está inicialmente claro porque aplicar PageRank para un grafo de coocurrencia puede producir frases principales convenientes. Una manera de pensar es la siguiente. Una palabra que aparece múltiples veces a través de un texto pude tener diferentes vecinos coocurrentes. Por ejemplo en un texto acerca de aprendizaje automático, el unigrama "aprendizaje" puede coocurrir con "automático", "supervisado", "no supervisado" y "semi-supervisado" en cuatro oraciones distintas. De esta forma el vértice "aprendizaje" podría ser el centro que conecta estas otras palabras modificadoras. Ejecutando PageRank/TextRank sobre este grafo "aprendizaje" tendría una posición elevada en el ranking. Similarmente, si el texto contiene la frase "clasificación supervisada", entonces existiría una arista entre "supervisada" y "clasificación". Si "clasificación" aparece en otros lugares y con otros vecinos, su importancia puede contribuir a la importancia de "supervisada". Al final si obtienen una posición elevada en el orden final, será seleccionados como uno de los T unigramas superiores, junto con "aprendizaje" y probablemente "clasificación". Al final del postprocesamiento se puede concluir con frases como "aprendizaje supervisado" y "clasificación supervisada". En pocas palabras, el grafo de coocurrencia contiene regiones densamente conectadas de términos que aparecen muchas veces y en diferentes contextos. Un camino en el grafo contendrá una distribución estacionaria que asigna grandes probabilidades a términos centros de clusters. Esto es similar a las páginas Web densamente conectadas que obtienen posiciones altas con PageRank.

Sumarización de documentos[editar]

Al igual que la extracción de frases principales, la sumarización de documentos aspira a identificar la esencia de los textos. La diferencia principal radica en que ahora se tratará con largas unidades de textos-oraciones completas en vez de frases o palabras-.

Antes de entrar en detalles de algunos métodos de sumarización, es necesario mencionar como los sistemas de sumarización son típicamente evaluados.

La manera más frecuente es utilizando la medida ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Esta es una medida basada en el recobrado que determina cuan bien los sistemas generadores de sumarios cubren el contenido presente en uno o más modelos de sumarios conocidos como referencia y que son generados por humanos. Es basado en recobrado para impulsar a los sistemas a incluir todos los tópicos principales de los textos.

El recobrado puede ser computado respecto a unigramas, bigramas, trigrams o 4-gramas. A través de ROUGE-1 (macheo de unigramas) se ha mostrado una mejor correspondencia con los sumarios generados por humanos. ROUGE-1es computado como la fracción de unigramas presentes en el sistema en relación con los unigramas presentes en los sumarios de referencia. Si existen múltiples referencias, los resultados de ROUGE-1 son promediados. Debido a que ROUGE es basado solamente en contenidos superpuestos, puede determinar si de forma general se es discutido los mismos conceptos entre el sumario generado automáticamente y los sumarios de referencia, pero no puede determinar si los resultados son coherentes o las oraciones concuerden de una manera adecuada. La medida ROUGE para n-gramas de orden superior trata de juzgar en alguna medida la fluidez.

Se puede notar que ROUGE es similar a la medida BLEU para traducción automática, pero BLEU es basada en precisión, porque la traducción favorece la exactitud.

Una ventaja de la sumarización de documentos es su adaptabilidad a la sumarización de documento/textos.[5] La idea de adaptabilidad implica en primer lugar identificar el género documento/texto y aplicar las sucesivas optimizaciones para este género. Se han realizados las primeras aproximaciones a los sistemas de sumarización adaptativos.[6]

Visión general de las aproximaciones de aprendizaje supervisado.[editar]

La sumarización de texto supervisada es muy parecida a la extracción de frases principales supervisada. Básicamente, si se posee una colección de documentos y resúmenes generados por humanos para ellos, se puede aprender las características de las oraciones que las convierten en buenos candidatos para incluirlas en los resúmenes. Las características pueden incluir la posición en el texto (probablemente las primeras oraciones son las más importantes), el número de palabras en las oraciones etc.

La principal dificultad en la sumarización por extracción supervisada es que los sumarios de ejemplos deben ser creados manualmente extrayendo oraciones, luego en el documento las oraciones pueden ser etiquetadas como en el sumario o no en el sumario. Pero esta no es la forma habitual en la que se realizan resúmenes, luego utilizando simples resúmenes de periódicos o sumarios de artículos no son realmente suficientes. Las oraciones en estos sumarios no se corresponden realmente con oraciones en el texto, luego es difícil asignar etiquetas a los documentos de entrenamiento. Se debe notar que estos sumarios todavía pueden ser utilizados para fines evaluativos, puesto que ROUGE-1 solo se interesa por los unigramas.

Aproximaciones no supervisadas: TextRank and LexRank.[editar]

La aproximación no supervisada a la sumarización es bastante similar en espíritu a la extracción de frases principales no supervisada, y maneja el problema de los datos de entrenamiento. Algunas aproximaciones están basadas en encontrar una oración centroide, la cual es el vector de palabras principal del documento. Luego las oraciones pueden ser ordenadas de acuerdo a su similaridad con la oración centroide.

La forma más usada de estimar la importancia de las oraciones es usando caminos aleatorios y eigenvector centrales. LexRank[7] es un algoritmo esencialmente idéntico a TextRank, y ambos usan esta aproximación a la sumarización de documentos. Los dos métodos fueron desarrollados por grupos diferentes al mismo tiempo. LexRank se centra en la sumarización de documentos, pero puede ajustarse fácilmente para extracción de frases principales o cualquier otra estrategia de ranking de NLP.

Elecciones de diseño[editar]

¿Qué deben ser los vértices?[editar]

En ambos, LexRank y TextRank, un grafo es construido creando un vértice para cada oración en el documento.

¿Cómo deben crearse las aristas?[editar]

Las aristas entre oraciones están basadas en alguna forma de similaridad semántica o contenidos relacionados. Mientras que LexRank utiliza las medidas de coseno o TF-IDF para vectores, TextRank usa una medida de similaridad basada en el número de palabras que dos oraciones tienen en común (normalizado por la longitud de las oraciones). El artículo LexRank experimenta con aristas sin peso antes de aplicar umbrales para los valores del coseno, pero también experimenta con aristas con pesos iguales al grado de similaridad. TextRank utiliza grados de similaridad continuos como pesos.

¿Cómo son formados finalmente los resúmenes?[editar]

En ambos algoritmos, las oraciones son ordenadas aplicando PageRank al grafo resultante. Un sumario es formado combinando las mejores oraciones, utilizando un umbral o un número que represente el tamaño límite del sumario.

Diferencias entre TextRank and LexRank.[editar]

Es importante notar que TextRank fue aplicado para sumarizar exactamente como se describió aquí, mientras que LexRank fue usado como parte de un sistema más grande de sumarización (MEAD) que combina de calificación de LexRank (probabilidad estacionaria) con otras características como la posición de la oración y la longitud usando una combinación linear con especificación de pesos ajustados por el usuario o automáticamente. En este caso, algunos documentos entrenantes pueden ser necesarios, aunque los resultados de TextRank muestran que características adicionales no son absolutamente necesarias.

Otra importante distinción es que TextRank fue usado para sumarización de documentos simples, mientras que LexRank ha sido aplicado a sumarización de multidocumentos. La tarea en ambos casos es la misma-solo el número de oraciones ha crecido. No obstante, cuando se sumariza múltiples documentos, existe un gran riesgo de seleccionar duplicados u oraciones redundantes, para colocarlas en el mismo sumario. Puede suceder que se tenga un conjunto de artículos de noticias sobre un evento en particular, y se quiera producir un sumario. Es probable que los artículos tengan frases similares, y que se deseen incluir ideas diferentes en el sumario. Para lograr esto, LexRank aplica heurísticas en un paso de postprocesamiento que construyen el resumen agregando las oraciones en el orden obtenido, pero descartando aquellas que son muy similares a las que ya están puestas. El método utilizado es llamado CSIS (Cross-Sentence Information Subsumption).

¿Por qué trabaja la sumarización no supervisada?[editar]

Estos métodos trabajan basados en la idea siguiente, las oraciones recomiendan oraciones similares al lector. Así, si una oración es muy similar a otras, esta puede ser una oración de gran importancia. La importancia de estas oraciones también depende de la importancia de las oraciones que las recomiendan. Luego para obtener una posición elevada en el ranking una oración debe ser similar a muchas oraciones que a su vez sean similares a muchas oraciones. Esto intuitivamente permite aplicar el algoritmo en textos arbitrarios. Es altamente portable e independiente del dominio. Se puede pensar que las características de las oraciones en el dominio de las noticias pueden variar considerablemente del dominio biomédico, sin embargo las aproximaciones basadas en recomendación no supervisadas son aplicables a cualquier dominio.

Sumarización multidocumentos[editar]

La sumarización multi-documentos es un procedimiento automático que permite la extracción de información de múltiples textos escritos acerca del mismo tópico. El resultado es un resumen que permite a los usuarios individuales familiarizarse rápidamente con la información contenida en grandes cuerpos de documentos. En este sentido la sumarización multi-documento es complementaria al desarrollo de agregaciones de noticias el próximo paso en el camino para tratar la sobrecarga de información.

La sumarización multi-documentos crea reportes de información concisos y comprensibles. Mientras que el objetivo de la sumarización es simplificar la búsqueda de información y reducir el tiempo apuntando a los documentos más relevantes, los sumarios multi-documentos deben contener la información requerida, por lo tanto limitar la necesidad de acceder a los documentos originales. Los sumarios automáticos presentan la información extraída de diferentes fuentes algorítmicamente, sin ninguna edición o la intervención subjetiva de los humanos, luego se hace completamente imparcial.

Incorporando diversidad: GRASSHOPPER[editar]

La sumarización extraída de multi-documentos presenta potencialmente el problema de la redundancia. Idealmente se extraerían oraciones centrales y diferentes. LexRank trata con la diversidad utilizando heurísticas, CSIS, y otros sistemas usan métodos similares como Relevancia Marginal Máxima ( Maximal Marginal Relevance (MMR)) para tratar de eliminar la redundancia de los resultados recuperados.

Existe un algoritmo de propósito general basado en grafos como Page/Lex/TextRank que maneja centralidad y diversidad en un framework matemático unificado donde sobre cadenas absorbentes Markov de caminos aleatorios. (Un camino absorbente es como un camino aleatorio estándar, excepto que algunos estados son ahora estados absorbentes que actúan como hoyos negros y causan que el camino termine abruptamente en el estado). El algoritmo es llamado GRASSHOPPER. En adición para incorporar explícitamente la diversidad durante el proceso de ranking, GRASSHOPPER incorpora a ranking a priori (basado en la posición de las oraciones en el caso de los sumarios).

Técnicas de evaluación[editar]

La manera más común de evaluar la información que ofrecen los sumarios es comparándolos con modelos humanos. Las técnicas de evaluación incluyen intrínsecas y extrínsecas,[8] inter-textual e intra-textual.[9]

Evaluación intrínsecas y extrínsecas[editar]

Una evaluación intrínseca prueba el sistema de sumarización internamente, mientras que una evaluación extrínseca prueba la sumarización basado en como esta afecta la confección de otras tareas. La evaluación intrínseca mide principalmente en la coherencia y el aporte informativo del sumario. Mientras que la evaluación extrínseca, mide el impacto en tareas como lecturas de comprensión, valoración de relevancia, etc.

Inter-textual y intra-textual[editar]

Los métodos intra-textuales evalúan la salida de un sistema de sumarización específico, y los métodos inter-textual se centran en comparar los resultados de varios sistemas de sumarización.

Los juicios humanos a menudo son muy variables al considerar que es un buen sumario, lo cual significa que automatizar este proceso es particularmente difícil. LA evaluación manual puede ser usada, pero esto en requiere tiempo y una labor intensa por parte de los humanos, ya que no solo deben leer los sumarios sino también los documentos. Otras cuestiones las constituyen la coherencia y el cubrimiento del tema.

Una de las métricas usadas en las Conferencias Anual de Entendimientos de Documentos del NIST (NIST's annual Document Understanding Conferences [3] ), donde los grupos de investigación presentas sus sistemas para tareas de sumarización y traducción, es ROUGE. Esencialmente calcula n-gramas que coincidan entre sumarios automáticamente generados y sumarios realizados por humanos. Se debe notar que ninguna métricas de este tipo pueden proveer ninguna respuesta en cuanto a la coherencia de los sumarios. Otro problema que aún no es totalmente resuelto es la resolución anafórica.

Dificultades actuales en la evaluación de sumarios automáticamente.[editar]

Evaluar sumarios, ya sea manual o automáticamente es una tarea ardua. La principal dificultad radica en la imposibilidad de construir un estándar por el cual se pueda comparar. Además, es bastante difícil determinar que es un sumario correcto, porque existe siempre la posibilidad que un sistema genere un buen sumario bastante diferente a cualquier sumario realizado por un humano para corregir la salida. La selección de contenidos no es un problema determinista. Las personas son subjetivas, y diferentes autores pueden elegir diferentes oraciones. Individualmente pueden no ser consistentes. Una misma persona puede elegir oraciones diferentes en diferentes momentos. Dos oraciones expresadas con palabras diferentes pueden expresar el mismo sentido. Este fenómeno es conocido como parafrasear. Se puede encontrar una aproximación a la evaluación automática usando este fenómeno (ParaEval).

Evaluación cualitativa de sumarios.[editar]

El principal inconveniente de la evaluación de los sistemas existentes hasta el momento es la necesidad de al menos una referencia, y para unos métodos más que para otros ser capaces de comparar sumarios automáticos con los modelos. Esta es una tarea difícil y costosa. Muchos esfuerzos se han realizado en función de obtener cuerpos de documentos con sus respectivos sumarios. Además para algunos métodos, no solo se necesita sumarios disponibles para comparar, también es necesario realizar anotaciones sobre algunos de ellos (SCU in the Pyramid Method). En cualquier caso la evaluación necesita como entrada un conjunto de resúmenes que sirvan como meta. Además, todos realizan una evaluación cuantitativa respecto a diferentes métricas. Para resolver este problema, se cree que la evaluación cuantitativa puede que no sea la única manera de evaluar sumarios, y que una evaluación cualitativa puede ser también importante.

Véase también[editar]

Referencias[editar]

  1. Marujo et ál., 2012
  2. Marujo et ál., 2012
  3. Marujo, Viveiros y Neto, 2011
  4. Rada Mihalcea and Paul Tarau, 2004: TextRank: Bringing Order into Texts, Department of Computer Science University of North Texas [1]
  5. Yatsko, V. et al Automatic genre recognition and adaptive text summarization. In: Automatic Documentation and Mathematical Linguistics, 2010, Volume 44, Number 3, pp.111-120.
  6. UNIS (Universal Summarizer)
  7. Güneş Erkan and Dragomir R. Radev: LexRank: Graph-based Lexical Centrality as Salience in Text Summarization [2]
  8. Mani, I. Summarization evaluation: an overview
  9. Yatsko V. A., Vishnyakov T. N. A method for evaluating modern systems of automatic text summarization. In: Automatic Documentation and Mathematical Linguistics. - 2007. - V. 41. - No 3. - P. 93-103.

Further reading[editar]