Cross Industry Standard Process for Data Mining

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

CRISP-DM , de Cross Industry Standard Process for Data Mining.[1] Se trata de un modelo de proceso de minería de datos que describe los enfoques comunes que utilizan los expertos en minería de datos. Encuestas realizadas en 2002, 2004 y 2007 muestran que es la principal metodología utilizada para esta tarea.[2] [3] [4] El único otro estándar de data mining nombrado en estas encuestas era el SEMMA. No obstante, 3-4 veces más personas reportaron optar por CRISP-DM. Una revisión y crítica de los modelos de minería de datos en 2009 llamó a CRISP-DM el "estándar de facto para el desarrollo de la minería de datos y los proyectos de descubrimiento de conocimiento".[5]

Fases principales[editar]

CRISP-DM divide el proceso de minería de datos en seis fases principales.[6]

Las flechas en el diagrama indican las dependencias más importantes y frecuentes entre fases. El círculo exterior en el diagrama simboliza la naturaleza cíclica de la minería de datos en sí. Un proceso de minería de datos continua después del despliegue de una solución. Las lecciones aprendidas durante el proceso pueden provocar nuevas preguntas de negocio, a menudo más centradas y posteriores procesos de minería de datos se beneficiarán de la experiencia de los anteriores.

Diagrama de proceso que muestra la relación entre las diferentes fases de CRISP-DM
  • Comprensión del negocio
Esta fase inicial se centra en la comprensión de los objetivos y requisitos del proyecto desde una perspectiva empresarial, y luego convertir este conocimiento en una definición del problema de minería de datos, y un plan preliminar diseñado para alcanzar los objetivos.
  • Comprensión de Datos
Esta fase comienza con una colección inicial de datos y procesos con actividades con el objetivo de familiarizarse con los datos, identificar la calidad de los problemas, para descubrir las primeras señales dentro de los datos y detectar temas interesantes para poder formular hipótesis de información oculta.
  • Preparación de datos
Esta fase cubre todas las actividades para construir el conjunto de datos. Estas tareas son ejecutadas en múltiples oportunidades y sin orden. Las tareas incluyen selección y transformación de tablas, registros y atributos y limpieza de datos para las herramientas de modelado.
  • Modelado
En esta fase se seleccionan y aplican varias técnicas de modelado y se calibran los parámetros para obtener óptimos resultados. Hay varias técnicas que tienen requerimientos específicos para la forma de los datos, por lo que frecuentemente es necesario volver a la fase de preparación de datos.
  • Evaluación
En esta etapa en el proyecto ha construido un modelo (o modelos) que parece tener gran calidad, desde una perspectiva de análisis de datos.
  • Despliegue
Esta fase depende de los requerimientos, pudiendo ser simple como la generación de un reporte o compleja como la implementación de un proceso de explotación de información que atraviese a toda la organización.

En muchos casos, será el cliente, no el analista de datos, que llevará a cabo los pasos de implementación. Incluso si el analista despliega el modelo es importante para el cliente para entender por adelantado las acciones que deberán llevarse a cabo con el fin de hacer realidad el uso de los modelos creados.

Historia[editar]

CRISP-DM fue concebido en 1996. En 1997 se puso en marcha como un proyecto de la Unión Europea bajo la iniciativa de financiación ESPRIT. El proyecto fue dirigido por cinco empresas: SPSS, Teradata, Daimler AG, NCR Corporation y Ohra, una compañía de seguros.

Este consorcio original trajo diferentes experiencias al proyecto: ISL, más tarde adquirió y se fusionó con SPSS Inc. El gigante de la informática NCR Corporation produjo el data warehouse de Teradata y su propio software de minería de datos. Daimler-Benz tenía un equipo de minería de datos relevante. OHRA estaba empezando a explorar el uso potencial de la minería de datos.

La primera versión de la metodología se presentó en el cuarto CRISP-DM SIG taller en Bruselas en marzo de 1999, y fue publicada, más tarde ese año, como una guía paso a paso de minería de datos.

Entre 2006 y 2008 se formó un 2.0 SIG CRISP-DM y hubo discusiones acerca de la actualización del modelo de proceso CRISP-DM. El estado actual de estos esfuerzos no es conocido. Sin embargo, el sitio web crisp-dm.org original, citado en varias fuentes, y el sitio web de CRISP-DM 2.0 SIG ya no están activos.

Aunque muchos de los profesionales de minería de datos que utilizan CRISP-DM no son colaboradores de IBM, IBM es la principal empresa que actualmente promueve el modelo de proceso CRISP-DM; hace disponibles algunos de los viejos documentos CRISP-DM para su descarga y ha incorporado el modelo de proceso a su producto SPSS Modeler.

Referencias[editar]

  1. Shearer C., el modelo CRISP-DM: el nuevo plan para la minería de datos, almacenamiento de los datos J (2000); 5:13-22.
  2. Gregory Piatetsky-Shapiro (2002); KDnuggets Metodología Encuesta
  3. Gregory Piatetsky-Shapiro (2004); KDnuggets Metodología Encuesta
  4. Gregory Piatetsky-Shapiro (2007); KDnuggets Metodología Encuesta
  5. Óscar Marbán, Gonzalo Javier Mariscal y Segovia (2009), Un Minería de Datos y Descubrimiento de Conocimiento Process Modelo . En la minería de datos y descubrimiento de conocimiento en aplicaciones reales, libro editado por: Julio Ponce y Adem Karahoca, ISBN 978-3-902613-53-0, pp 438-453, febrero de 2009, I-Tech, Viena, Austria.
  6. Harper, Gavin; Stephen D. Pickett (August de 2006). «Methods for mining HTS data». Drug Discovery Today 11 (15–16): 694–699. doi:10.1016/j.drudis.2006.06.006. PMID 16846796. 

Enlaces externos[editar]