Cross Industry Standard Process for Data Mining

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

CRISP-DM , de Cross Industry Standard Process for Data Mining.[1] Se trata de un modelo de proceso de minería de datos que describe los enfoques comunes que utilizan los expertos en minería de datos. Encuestas realizadas en 2002, 2004 y 2007 muestran que es la principal metodología utilizada para esta tarea.[2] [3] [4] El único otro estándar de data mining nombrado en estas encuestas era el SEMMA. No obstante, 3-4 veces más personas reportaron optar por CRISP-DM. Una revisión y crítica de los modelos de minería de datos en 2009 llamó a CRISP-DM el "estándar de facto para el desarrollo de la minería de datos y los proyectos de descubrimiento de conocimiento".[5]

Fases principales[editar]

CRISP-DM divide el proceso de minería de datos en seis fases principales.[6]

Las flechas en el diagrama indican las dependencias más importantes y frecuentes entre fases. El círculo exterior en el diagrama simboliza la naturaleza cíclica de la minería de datos en sí. Un proceso de minería de datos continua después del despliegue de una solución. Las lecciones aprendidas durante el proceso pueden provocar nuevas preguntas de negocio, a menudo más centradas y posteriores procesos de minería de datos se beneficiarán de la experiencia de los anteriores.

Diagrama de proceso que muestra la relación entre las diferentes fases de CRISP-DM
  • Comprensión del negocio
Esta fase inicial se centra en la comprensión de los objetivos y requisitos del proyecto desde una perspectiva empresarial, y luego convertir este conocimiento en una definición del problema de minería de datos, y un plan preliminar diseñado para alcanzar los objetivos.
  • Comprensión de Datos
Esta fase comienza con una colección inicial de datos y procesos con actividades con el objetivo de familiarizarse con los datos, identificar la calidad de los problemas, para descubrir las primeras señales dentro de los datos y detectar temas interesantes para poder formular hipótesis de información oculta.
  • Preparación de datos
Esta fase cubre todas las actividades para construir el conjunto de datos. Estas tareas son ejecutadas en múltiples oportunidades y sin orden. Las tareas incluyen selección y transformación de tablas, registros y atributos y limpieza de datos para las herramientas de modelado.
  • Modelado
En esta fase se seleccionan y aplican varias técnicas de modelado y se calibran los parámetros para obtener óptimos resultados. Hay varias técnicas que tienen requerimientos específicos para la forma de los datos, por lo que frecuentemente es necesario volver a la fase de preparación de datos.
  • Evaluación
En esta etapa en el proyecto ha construido un modelo (o modelos) que parece tener gran calidad, desde una perspectiva de análisis de datos.
  • Despliegue
Esta fase depende de los requerimientos, pudiendo ser simple como la generación de un reporte o compleja como la implementación de un proceso de explotación de información que atraviese a toda la organización.

En muchos casos, será el cliente, no el analista de datos, que llevará a cabo los pasos de implementación. Incluso si el analista despliega el modelo es importante para el cliente para entender por adelantado las acciones que deberán llevarse a cabo con el fin de hacer realidad el uso de los modelos creados.

Referencias[editar]

  1. Shearer C., el modelo CRISP-DM: el nuevo plan para la minería de datos, almacenamiento de los datos J (2000); 5:13-22.
  2. Gregory Piatetsky-Shapiro (2002); KDnuggets Metodología Encuesta
  3. Gregory Piatetsky-Shapiro (2004); KDnuggets Metodología Encuesta
  4. Gregory Piatetsky-Shapiro (2007); KDnuggets Metodología Encuesta
  5. Óscar Marbán, Gonzalo Javier Mariscal y Segovia (2009), Un Minería de Datos y Descubrimiento de Conocimiento Process Modelo . En la minería de datos y descubrimiento de conocimiento en aplicaciones reales, libro editado por: Julio Ponce y Adem Karahoca, ISBN 978-3-902613-53-0, pp 438-453, febrero de 2009, I-Tech, Viena, Austria.
  6. Harper, Gavin; Stephen D. Pickett (August 2006). «Methods for mining HTS data». Drug Discovery Today 11 (15–16):  pp. 694–699. doi:10.1016/j.drudis.2006.06.006. PMID 16846796. http://www.sciencedirect.com/science?_ob=ArticleURL&_udi=B6T64-4KDJSRH-4&_user=793840&_coverDate=08%2F31%2F2006&_rdoc=4&_fmt=full&_orig=browse&_srch=doc-info(%23toc%235020%232006%23999889984%23627946%23FLA%23display%23Volume)&_cdi=5020&_sort=d&_docanchor=&view=c&_ct=17&_acct=C000043460&_version=1&_urlVersion=0&_userid=793840&md5=f7f5b2376172e12b63177a32b03de111. 

Enlaces externos[editar]