Fase de modelado

De Wikipedia, la enciclopedia libre

En la metodología CRISP-DM aplicada en la minería de datos existen diferentes fases, una de ellas es el modelado.

Durante esta fase del CRISP-DM, se seleccionan las técnicas de modelado más apropiadas para el proyecto de Data Mining específico.[1]

Las técnicas a utilizar en esta fase se eligen en función de los siguientes criterios:

  • Ser Apropiada al tema: Es decir, que va de acuerdo a las características de tus datos y criterios u objetivos planteados durante las primeras fases.
  • Dispones de datos adecuados: Es decir, que tus datos ya están limpios y procesados para ser trabajados.
  • Cumplir los requisitos del problema: Es decir que satisfaces las necesidades planteadas o al menos la mayoría de ellos.
  • Conocimiento de la técnica: Este es muy importante, es necesario conocer en como funciona la técnica seleccionada, debido a que si no se tiene el conocimiento adecuado esto puede provocar resultados incorrectos o ineficientes.

Previamente al modelado de los datos, es necesario determinar un método de evaluación de dichos modelos que permita establecer un grado de bondad de ellos. Después de concluir con estas tareas genéricas se procede a la generación y evaluación del modelo empleado.

Los parámetros utilizados en la generación del modelo, dependen completamente de las características de los datos, y de las características de precisión que se quieren lograr con dicho modelo.

Fases del modelado[editar]

Selección de la técnica de modelado[editar]

Esta tarea consiste en la selección de la técnica de Data Mining más apropiada al tipo de problema a resolver.

Es decir que para esta selección se debe de considerar el objetivo principal del proyecto y la relación con las herramientas de Data Mining existentes.

Por ejemplo, si nuestro problema a resolver es un problema de clasifican (por ejemplo decidir si una flor pertenece a una especie con base a sus características) es posible elegir entre árboles de decisión, k-vecino más próximo o razonamiento basado en casos (CBR), en cambio si el problema es de predicción (calcular el valor de una casa a través del tiempo) es posible usar análisis de regresión, redes neuronales, técnicas de visualización, etc.

Generación del Plan de Prueba[editar]

Una vez construido un modelo, se debe generar un procedimiento destinado a probar la calidad y validez del mismo. Por ejemplo, en una tarea supervisada de DM como la clasificación, es común usar la razón de error como medida de la calidad. Entonces, típica mente se separan los datos en dos conjuntos, uno de entrenamiento y otro de prueba, para luego construir el modelo basado en el conjunto de entrenamiento y medir la calidad del modelo generado con el conjunto de prueba.

Construcción del Modelo[editar]

Una vez que la técnica es seleccionada, esta se ejecuta sobre los datos previamente preparados para genera uno a más modelos.

Todas las técnicas de modelado tienen un conjunto de parámetros que determina las características de dicho modelo a generar.

La selección de los mejores parámetros es un proceso iterativo y se basa exclusivamente en los resultados generados los cuales deben de ser interpretados y justificar su rendimiento.

Evaluación Del Modelo[editar]

En esta tarea, se interpretan los modelos de acuerdo al conocimiento preexistente del dominio y los criterios de existo preestablecidos.

Personas expertas o capacitadas en el dominio del problema juzgan los modelos dentro del contexto del dominio, y expertos en Data Mining aplican sus propios criterios.

Referencias[editar]

  1. Definición de Requisitos en Proyectos de Data Mining [1]

Enlaces externos[editar]