ROUGE (métrica)

ROUGE, siglas de Recall-Oriented Understudy for Gisting Evaluation ^[1](en castellano: ‘Suplente para la evaluación de la esencia orientado en la sensibilidad’) es un conjunto de métricas y un paquete de software que se utiliza para evaluar el software de resumen automático y traducción automática en el procesamiento del lenguaje natural (NLP). Las métricas comparan un resumen o traducción generada automáticamente con una referencia o un conjunto de referencias de resumen o traducción (producidas por humanos). Las métricas de ROUGE oscilan entre 0 y 1, y las puntuaciones más altas indican una mayor similitud entre el resumen producido automáticamente y la referencia.

Métricas[editar]

Las siguientes cinco métricas de evaluación están disponibles.

ROUGE-N: Superposición de n-gramas ^[2] entre el los resúmenes generados por el sistema y los de referencia.
- ROUGE-1 se refiere a la superposición de unigramas (cada palabra) entre el sistema y los resúmenes de referencia.
- ROUGE-2 se refiere a la superposición de bigramas entre el sistema y los resúmenes de referencia.
ROUGE-L: Estadísticas basadas en la subsecuencia común más larga (LCS) ^[3] . El problema de subsecuencia común más larga tiene en cuenta la similitud de la estructura a nivel de oración de forma natural e identifica automáticamente los n-gramas más largos que ocurren simultáneamente en la secuencia.
ROUGE-W: Estadísticas ponderadas basadas en LCS que favorecen LCS consecutivas.
ROUGE-S: Estadísticas de coocurrencia basadas en Skipbigram ^[3] . Skip-bigram es cualquier par de palabras en el orden de sus oraciones.
ROUGE-SU: Skip-bigram más estadísticas de coocurrencia basadas en unigram.

Véase también[editar]

Referencias[editar]

Enlaces externos[editar]

[1] Lin, Chin-Yew. 2004. ROUGE: a Package for Automatic Evaluation of Summaries. In Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, July 25 - 26, 2004.

[2] Lin, Chin-Yew and E.H. Hovy 2003. Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics. In Proceedings of 2003 Language Technology Conference (HLT-NAACL 2003), Edmonton, Canada, May 27 - June 1, 2003.

[lin-acl-2004-3] Lin, Chin-Yew and Franz Josef Och. 2004. Automatic Evaluation of Machine Translation Quality Using Longest Common Subsequence and Skip-Bigram Statistics. In Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL 2004), Barcelona, Spain, July 21 - 26, 2004.

[1]

[2]

[3]