Minería de textos

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

La minería de textos se refiere al proceso de derivar información nueva de textos.

Historia[editar]

A comienzos de los años ochenta surgieron los primeros esfuerzos de minería de textos que necesitaban una gran cantidad de esfuerzo humano, pero los avances tecnológicos han permitido que esta área progrese de manera rápida en la última década. La minería de textos es un área multidisciplinaria basada en la recuperación de información, minería de datos, aprendizaje automático, estadísticas y la lingüística computacional. Como la mayor parte de la información (más de un 80%) se encuentra actualmente almacenada como texto, se cree que la minería de textos tiene un gran valor comercial[cita requerida].

Se le presta cada vez un mayor interés a la minería de textos multilingual: la habilidad de ganar información en otros idiomas.

Aplicaciones académicas[editar]

El tema de la minería de textos es de importancia para publicadores que tengan grandes bancos de data que requieran de indexación. Esto es el caso en particular para disciplinas científicas en las que hay una gran cantidad de información muy específica en forma de texto escrito. Es por ello que se han presentado iniciativas como el Open Text Mining Interface (OTMI) y el common Journal Publishing Document Type Definition (DTD) de la NIH, que ofrecerían datos semánticos para responder a preguntas muy específicas sin quitar las barreras del publicador al acceso público.

Software comercial y aplicaciones[editar]

  • Anderson Analytics - proveedor de análisis de texto y de contenido relacionado con el comportamiento del consumidor.
  • Attensity - grupo de soluciones de minería de textos para diversas industrias.
  • Autonomy - software de minería de textos, clustering y categorización.
  • Clarabridge - aplicaciones de minería de textos, categorización para clientes, servicios de salud y analítica investigativa.
  • Clearforest - software de minería de texto para extraer el significado de varias formas de información textual.
  • Cortex Intelligence - proveedor de análisis de contenido de Web.
  • Crossminder - empresa de minería de textos con búsqueda multilingüe y aproximación semántica.
  • IBM Intelligent Miner for Text - software de minería de textos comercial.
  • Inxight - proveedor de tecnologías de análisis de texto, búsqueda y visualization.
  • Island Data - Real-time market intelligence from unstructured customer feedback.
  • Luxid - TEMIS es un productor de software en el área de inteligencia de información. Su software Luxid proporciona herramientas para el análisis de texto: clasificación de contenidos, extracción de conceptos, análisis de sentimiento... A su vez proporciona herramientas para la gestión de tesauros, taxonomías y ontologías.
  • Nstein Technologies - provider of text analytics, and asset/web content management technologies (media, e-publishing, online publishing).
  • QDA Miner - software de métodos cualitativos y mixtos para la codificación, análisis y escritura del informe.
  • SAS Enterprise Miner - software de minería de datos.
  • SAS Text Analytics - software de minería de textos, análisis de sentimientos, clasificación de contenidos y extracción de conceptos.
  • SPSS - proveedor de TextSmart, SPSS Text Analysis for Surveys y Clementine, productos que se pueden utilizar con otros de SPSS.
  • TALTAC2 - TalTac2 es un software para el anàlisis de datos textuales. Tiene como objetivo describir e interpretar el contenido y / o algunas de sus propiedades.
  • Textalytics - APIs en la nube para minería de textos, análisis de sentimiento, clasificación de contenidos y extracción de entidades y conceptos - en español y otros idiomas.
  • TextAnalyst - software de minería comercial.
  • Textalyser - herramienta de análisis en línea para ver las estadísticas de textos.
  • Topicalizer - una herramienta en línea para generar estadístias de páginas web y otros textos.
  • WordStat - Software de análisis de contenido y minería de texto.

Véase también[editar]

Enlaces externos[editar]