Cross Industry Standard Process for Data Mining

De Wikipedia, la enciclopedia libre
Diagrama de proceso que muestra la relación entre las diferentes fases de CRISP-DM

CRISP-DM (del inglés Cross Industry Standard Process for Data Mining)[1]​ se trata de un modelo estándar abierto del proceso que describe los enfoques comunes que utilizan los expertos en minería de datos. Es el modelo analítico más usado.[2]

Historia[editar]

CRISP-DM fue concebido en 1996. En 1997 se puso en marcha como un proyecto de la Unión Europea bajo la iniciativa de financiación ESPRIT. El proyecto fue dirigido por cinco empresas: SPSS, Teradata, Daimler AG, NCR y Ohra, una compañía de seguros.[3]

Este consorcio original trajo diferentes experiencias al proyecto: IBM, más tarde adquirió SPSS Inc. El gigante de la informática NCR Corporation produjo el almacén de datos de Teradata y su propio software de minería de datos. Daimler-Benz tenía un equipo de minería de datos relevante. OHRA estaba empezando a explorar el uso potencial de la minería de datos.

La primera versión de la metodología se presentó en el cuarto CRISP-DM SIG taller en Bruselas en marzo de 1999, y fue publicada, más tarde ese año, como una guía paso a paso de minería de datos.

Entre 2006 y 2008 se formó un 2.0 SIG CRISP-DM y hubo discusiones acerca de la actualización del modelo de proceso CRISP-DM. El estado actual de estos esfuerzos no es conocido. Sin embargo, el sitio web crisp-dm.org original, citado en varias fuentes, y el sitio web de CRISP-DM 2.0 SIG ya no están activos.

Aunque muchos de los profesionales de minería de datos que utilizan CRISP-DM no son colaboradores de IBM, IBM es la principal empresa que actualmente promueve el modelo de proceso CRISP-DM; hace disponibles algunos de los viejos documentos CRISP-DM para su descarga y ha incorporado el modelo de proceso a su producto SPSS Modeler.

Fases principales[editar]

CRISP-DM divide el proceso de minería de datos en seis fases principales:[4]​ Comprensión del negocio, Comprensión de los datos, Preparación de los datos, Fase de Modelado, Evaluación e Implantación.[5]​ La sucesión de fases, no es necesariamente rígida. Cada fase es descompuesta en varias tareas generales de segundo nivel. Las tareas generales se proyectan a tareas específicas, pero en ningún momento se propone como realizarlas. Es decir, CRISP-DM establece un conjunto de tareas y actividades para cada fase del proyecto pero no especifica cómo llevarlas a cabo.[6]

Las flechas en el diagrama indican las dependencias más importantes y frecuentes entre fases. El círculo exterior en el diagrama simboliza la naturaleza cíclica de la minería de datos en sí. Un proceso de minería de datos continúa después del despliegue de una solución. Las lecciones aprendidas durante el proceso pueden provocar nuevas preguntas de negocio, a menudo más centradas y posteriores procesos de minería de datos se beneficiarán de la experiencia de los anteriores.

Encuestas[editar]

Encuestas realizadas en 2002, 2004 y 2007 muestran que es la principal metodología utilizada para esta tarea.[7][8][9]​ El único otro estándar de data mining nombrado en estas encuestas era el SEMMA. No obstante, 3-4 veces más personas reportaron optar por CRISP-DM. Una revisión y crítica de los modelos de minería de datos en 2009 llamó a CRISP-DM el "estándar de facto para el desarrollo de la minería de datos y los proyectos de descubrimiento de conocimiento".[10]

Referencias[editar]

  1. Shearer C., el modelo CRISP-DM: el nuevo plan para la minería de datos, almacenamiento de los datos J (2000); 5:13-22.
  2. What IT Needs To Know About The Data Mining Process Publicado por Forbes, el 29 de julio de 2015, recuperado el 24 de junio de 2018 (en inglés)
  3. http://www.oldemarrodriguez.com/yahoo_site_admin/assets/docs/Documento_CRISP-DM.2385037.pdf
  4. Harper, Gavin; Stephen D. Pickett (agosto de 2006). «Methods for mining HTS data». Drug Discovery Today 11 (15–16): 694-699. PMID 16846796. doi:10.1016/j.drudis.2006.06.006. 
  5. Chapman, P.; Clinton, J., Keber y otros (2000). “CRISP-DM 1.0 Step by step guide”. 
  6. Moine, Juan Miguel; Haedo, Ana Silvia, Gordillo, Silvia (mayo de 2011). “1Estudio comparativo de metodologías para minería de datos”. 
  7. Gregory Piatetsky-Shapiro (2002); KDnuggets Metodología Encuesta
  8. Gregory Piatetsky-Shapiro (2004); KDnuggets Metodología Encuesta
  9. Gregory Piatetsky-Shapiro (2007); KDnuggets Metodología Encuesta
  10. Óscar Marbán, Gonzalo Javier Mariscal y Segovia (2009), Un Minería de Datos y Descubrimiento de Conocimiento Process Modelo . En la minería de datos y descubrimiento de conocimiento en aplicaciones reales, libro editado por: Julio Ponce y Adem Karahoca, ISBN 978-3-902613-53-0, pp 438-453, febrero de 2009, I-Tech, Viena, Austria.