Minería de datos educativa

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

La minería de datos, también conocida como Descubrimiento de Conocimiento en Bases de datos (sus siglas en inglés son “KDD – Knowledge Discovery in Databases”), es el campo que nos permite descubrir información nueva y potencialmente útil de big data o grandes cantidades de datos. Se ha empleado en numerosos campos, incluyendo desde los ya conocidos casos de cesta de la compra hasta la bioinformática o investigaciones contra el terrorismo. Recientemente, se ha incrementado el interés en utilizar la minería de datos en el estudio educacional, centrándose en el desarrollo de métodos de descubrimiento que utilicen los datos de plataformas educacionales y en el uso de esos métodos para comprender mejor a los estudiantes y el entorno en el que aprenden. Los métodos empleados en la minería de datos en la educación suelen diferir de los métodos más generalistas, explotando explícitamente los múltiples niveles de jerarquía presentes en los datos. Métodos psicométricos suelen ser integrados con métodos de aprendizaje máquina y textos de minería de datos para lograr los objetivos. Por ejemplo, obteniendo datos sobre cómo los estudiantes eligen utilizar el software educacional, puede ser realmente útil considerar datos a distintos niveles sobre las pulsaciones de teclas, nivel de respuestas, del alumno, de la clase o de la escuela entera. Otros temas como el tiempo, secuencia o incluso el contexto juegan papeles importantes en el estudio de datos educacionales.[1]

Definición[editar]

La minería de datos educativos (EDM) hace referencia a las técnicas, herramientas y la investigación diseñados para extraer automáticamente el significado de grandes repositorios de datos generados por o relacionados con las actividades de aprendizaje en los centros educativos. Muy a menudo, estos datos son extensos y muy precisos. Por ejemplo, varios sistema de gestión de aprendizaje rastrean información como cuando cada estudiante accede a cada objeto de aprendizaje, cuántas veces accede a él y cuántos minutos se visualiza el objeto de aprendizaje en la pantalla del ordenador del usuario. Otro ejemplo son los sistema inteligentes de tutoría, que registran datos cada vez que un alumno presenta una solución a un problema; pueden recoger el momento de la presentación, si la solución coincide con la solución esperada, la cantidad de tiempo que ha pasado desde la última presentación, el orden en que se introdujeron en la interfaz los componentes de la solución, etc. La precisión de estos datos es tal que incluso una sesión bastante corta con un entorno de aprendizaje basado en computadoras puede producir una gran cantidad de datos de proceso para el análisis.

En otros casos, los datos son menos precisos. Por ejemplo, una universidad puede contener una lista temporal ordenada de los cursos a los que asiste un estudiante, la titulación que el estudiante obtuvo en cada curso y cuándo el estudiante selecciona o cambia de carrera. La minería de datos educativos aprovecha ambos tipos de datos para descubrir información significativa sobre los diferentes tipos de alumnos y cómo aprenden, la estructura de dominio de conocimiento y el efecto de las estrategias de enseñanza integrados dentro de diversos ambientes de aprendizaje. Estos análisis proporcionan nueva información que sería difícil de discernir fijándonos únicamente en los datos en bruto. Por ejemplo, el análisis de los datos de un LMS puede revelar una relación entre los objetos de aprendizaje a los que un estudiante accede durante el curso y su calificación final. Del mismo modo, el análisis de los de un estudiante puede revelar una relación entre la calificación de un estudiante en un curso particular y su decisión de cambiar su especialidad académica. Esta información proporciona una visión en el diseño de ambientes de aprendizaje, lo que permite a los estudiantes, profesores, administradores escolares y responsables de las políticas educativas tomar decisiones informadas sobre la forma de interactuar, proveer y administrar los recursos educativos.

Historia[editar]

Mientras que el análisis de los datos de estudios no es en sí mismo una nueva práctica, los avances recientes en tecnología educativa, incluyendo el aumento de la potencia de cálculo y la capacidad de registrar los datos precisos sobre el uso de un entorno de aprendizaje basado en computadoras de los estudiantes, han dado lugar a un creciente interés en el desarrollo de técnicas para el análisis de grandes cantidades de datos generados en los centros educativos. Este interés se tradujo en una serie de talleres de celebrados del 2000 al 2007 en el marco de varias conferencias internacionales.[2]​ En 2008, un grupo de investigadores estableció lo que se ha convertido en una conferencia internacional de investigación anual sobre EDM, la primera de las cuales tuvo lugar en Montreal , Canadá.[3]

Como el interés en EDM siguió aumentando, los investigadores crearon una revista académica de EDM en 2009, el Diario de la minería de datos educativos, para el intercambio y la difusión de resultados de investigación. En 2011, los investigadores crearon la Sociedad Internacional para la de minería de datos educativos para conectar investigadores en EDM y que este campo siga su crecimiento.

Con la introducción de los repositorios de datos educativos públicos en 2008, tales como la Pittsburgh Science of Learning’s Centre, Datashop y el National Center for Education Statistics, los conjuntos de datos públicos han hecho que la minería de datos educativos sea más accesible y habitual, lo que contribuye a su crecimiento.[4]

Objetivos[editar]

Baker y Yacef[5]​ identificaron los siguientes objetivos del EDM:

  1. La predicción de los comportamientos de aprendizaje de los alumnos en el futuro. Este objetivo puede lograrse mediante la creación de modelos de los estudiantes que incorporan características del alumno, incluyendo información detallada, como sus conocimientos, comportamientos y motivación para aprender. La experiencia de usuario del alumno y su general satisfacción con el aprendizaje también se cuantifican.
  2. El descubrimiento o la mejora de los modelos de dominio. A través de los distintos métodos y aplicaciones del EDM, el descubrimiento de nuevos modelos y la mejora de los existentes es posible. Por ejemplo, se consigue ilustrar el contenido educativo para motivar a los estudiantes y determinar las secuencias de instrucción óptimos para apoyar el estilo de aprendizaje del alumno.
  3. El estudio de los efectos del apoyo educativo, que se puede lograr a través de los sistemas de aprendizaje.
  4. El fomento del conocimiento científico sobre el aprendizaje y los alumnos mediante la construcción y la incorporación de los modelos de estudiantes, el campo de la investigación en EDM y la tecnología y el software utilizados.

Usuarios y participantes[editar]

Hay cuatro usuarios y participantes implicados en la minería de datos educativos.

  1. Los estudiantes. Interesa ​​la comprensión de las necesidades de los alumnos y los métodos para mejorar la experiencia y el rendimiento del alumno.[6]​ Por ejemplo, los estudiantes pueden beneficiarse de los conocimientos descubiertos por el uso de las herramientas de EDM para sugerir actividades y recursos que pueden utilizar en función de sus interacciones con las herramientas de aprendizaje en línea y las opiniones de alumnos anteriores ​​o similares.[7]​ Con los estudiantes más jóvenes, la minería de datos educativa también puede servir para informar a los padres sobre el progreso de aprendizaje de sus hijos.[8]​ También es necesario agrupar a los alumnos de manera efectiva en el ámbito de la educación en línea. El reto es aprender del funcionamiento de estas agrupaciones basadas en datos complejos y desarrollar modelos de mejora.[9]
  2. Los educadores. Los educadores tratan de comprender el proceso de aprendizaje y los métodos que pueden utilizar para mejorar sus métodos de enseñanza. Pueden utilizar las aplicaciones del EDM para determinar cómo organizar y estructurar los planes de estudio, los mejores métodos para hacer llegar la información del curso y las herramientas a utilizar para motivar a sus estudiantes para obtener unos resultados óptimos. En particular, esta técnica de diseminación de los datos para facilitar el juicio humano ofrece una oportunidad para que los educadores mejoren, ya les permite identificar rápidamente los patrones de comportamiento, en los que se pueden apoyar para mejorar sus métodos de enseñanza durante la duración del curso o para mejorar los cursos futuros. Los educadores pueden determinar los indicadores que muestran la satisfacción de los estudiantes y su motiviación, su valoración de los materiales y también pueden monitorizar el progreso del aprendizaje.[10]
  3. Los investigadores. Los investigadores se centran en el desarrollo y la evaluación de las técnicas de minería de datos para la eficacia. En el año 2008 dio comienzo una conferencia internacional anual de investigadores. Más tarde se creó el Journal of Educational Data Mining, en 2009. La amplia gama de temas en EDM va desde el uso de minería de datos para mejorar la efectividad institucional hasta el rendimiento del alumno.[11]
  4. Los administradores. Los administradores son los responsables de la asignación de los recursos para su implementación en las instituciones. Puesto que se considera que las instituciones son cada vez más las más responsable de éxito de los estudiantes, la administración de aplicaciones de EDM es cada vez más común en los centros educativos. Los centros educativos tratan cada vez más identificar a los estudiantes en riesgo y abordar el problema para solucionarlo.[11]

Fases de la minería de datos educativos[editar]

Como la investigación en el campo de la minería de datos educativos ha seguido creciendo, una gran variedad de técnicas de minería de datos se han aplicado a diversos contextos educativos. En cada caso, el objetivo es traducir los datos en bruto en información significativa sobre el proceso de aprendizaje con el fin de tomar mejores decisiones sobre el diseño y la trayectoria de un ambiente de aprendizaje. Por lo tanto, el EDM generalmente consta de cuatro fases:[12][13]

La primera fase del proceso de EDM (sin contar el pre-procesamiento) es el descubrimiento de las relaciones entre los datos. Esto implica la búsqueda a través de un repositorio de datos de un entorno educativo con el objetivo de encontrar relaciones consistentes entre variables. Se usan varios algoritmos para la identificación de este tipo de relaciones, incluyendo la clasificación estadística, el análisis de regresión, el análisis de agrupaciones, el análisis de redes sociales, la aplicación de reglas de asociación y la extracción de secuencias. Las relaciones descubiertas deben ser entonces validadas con el fin de evitar errores. Las relaciones validadas se aplican para hacer predicciones eventos futuros en el ambiente de aprendizaje. Las predicciones se utilizan para apoyar los procesos de toma de decisiones.

Durante las fases 3 y 4, los datos se visualizan de manera diseminada para facilitar la emisión del juicio humano. Mucho se ha estudiado para llevar a cabo en las mejores visualizaciones de datos con este fin.

Principales enfoques[editar]

De las categorías generales de los métodos mencionados, la predicción, el análisis de agrupaciones y la extracción de relaciones se consideran los métodos universales en todos los tipos de minería de datos. Sin embargo, el descubrimiento con modelos y la diseminación de datos para el juicio humano se consideran aproximaciones más prominentes dentro de la minería de datos educativa.[4]

Descubrimientos con modelos[editar]

En el método de descubrimiento con modelos, un modelo se desarrolla a través de la predicción, la agrupación o la ingeniería del conocimiento del razonamiento humano, y luego es usado como un componente de otro análisis, más concretamente, en la predicción y la extracción de relaciones.

En la predicción, las predicciones del modelo creado se utilizan para predecir unas nuevas variables dependientes e independientes.

Para el uso la extracción de relaciones, el modelo creado permite el análisis entre las nuevas predicciones y variables adicionales en el estudio. En muchos casos, el descubrimiento de los modelos utiliza modelos de predicción validados que han demostrado su generalización a través de contextos diversos.

Las aplicaciones clave de este método incluyen el establecimiento de relaciones entre las conductas de los estudiantes, sus características y las variables contextuales en el ambiente de aprendizaje.[4]

Diseminación de datos para el juicio humano[editar]

Los seres humanos pueden hacer inferencias acerca de los datos que pueden ir más allá del ámbito en el que la minería de datos automatizada proporciona. Para el uso de la minería de datos educativos, los datos se diseminan para el juicio humano con dos propósitos fundamentales: su identificación y su clasificación.

En lo concerniente a la identificación, los datos se diseminan para permitir que las personas identifiquen patrones bien conocidos, que de lo contrario pueden ser difíciles de interpretar. Por ejemplo, la curva de aprendizaje, clásica de los estudios educativos, es un patrón que refleja claramente la relación entre el aprendizaje y la experiencia a través del tiempo.

Los datos también se diseminan a los efectos de su clasificación. La clasificación estadística se utiliza, en la minería de datos educativos, para apoyar el desarrollo del modelo de predicción. La clasificación ayuda a acelerar el desarrollo del modelo de predicción tremendamente.

El objetivo de este método es resumir y presentar la información de una manera interactiva y atractivo a la vista, de manera que sea útil para comprender las grandes cantidades de datos de educativos. En particular, este método es beneficioso para los educadores en la comprensión de la información del uso por parte de los alumnos y la eficacia de las actividades del curso. Las aplicaciones clave para la diseminación de los datos para el juicio humano incluyen la identificación los patrones de aprendizaje de los estudiantes, el comportamiento, las oportunidades para la colaboración y los datos de etiquetado para futuros usos en los modelos de predicción.[4]

Aplicaciones[editar]

Cristóbal Romero y Sebastián Ventura[13]​ elaboraron una lista de aplicaciones primarias del EDM. En su taxonomía, las áreas de aplicación del EDM son las siguientes:

  • Análisis y visualización de datos
  • Proporcionar información para apoyar a los instructores
  • Recomendaciones para estudiantes
  • Predecir el desempeño del estudiante
  • Crear modelos de estuadiantes
  • La detección de comportamientos indeseables de estudiantes
  • Agrupación de estudiantes
  • Análisis de redes sociales
  • Desarrollo de mapas conceptuales
  • La construcción de cursos - El EDM se puede aplicar a los sistemas de gestión de cursos, como por ejemplo aquellos hecho en código abierto (Moodle). Moodle contiene los datos de uso de diversas actividades, tales como los resultados de pruebas, la cantidad de lecturas realizadas y la participación en foros de discusión. Las herramientas de minería de datos se pueden utilizar para personalizar las actividades de aprendizaje para cada usuario y adaptar el ritmo en el que el estudiante completa el curso. Esto es en particular beneficioso para los cursos en línea con diferentes niveles de competencia.[11]
  • Planificación y programación

Las últimas investigaciones sobre entornos de aprendizaje en el teléfono móvil sugieren que la minería de datos puede ser útil. La minería de datos se puede utilizar para ayudar a proporcionar contenido personalizado para los usuarios móviles, a pesar de las diferencias en la gestión de contenidos entre dispositivos móviles y dispositivos estándar como PCs y sus navegadores web.[11]

Las nuevas aplicaciones de EDM se centrarán en que los usuarios no técnicos utilicen las herramientas y realicen lactividades de minería de datos, de manera que la recopilación de datos y su procesamiento sea más accesible para todos los usuarios de EDM. Algunos ejemplos incluyen las herramientas estadísticas y de visualización que analizan las redes sociales y su influencia en los resultados del aprendizaje y la productividad.[14]

Cursos[editar]

En octubre de 2013, Coursera ofreció un curso en línea gratuito sobre “grandes datos en educación”. Enseñaba cómo y cuándo usar métodos clave del EDM.[15]

Por su parte, la Facultad de Educación de la Universidad de Columbia ofrecie asignaturas centradas en el análisis del aprendizaje como parte de sus másters de estudios cognitivos.[16]

Publicaciones[editar]

Se ha publicado una cantidad considerable de trabajos sobre EDM en la International Conference on Educational Data Mining, organizada por la International Educational Data Mining Society.

También se publican artículos sobre EDM en el Journal of Educational Data Mining.

Muchos trabajos de EDM se publican habitualmente en conferencias, como las conferencias sobre Inteligencia Artificial y Educación, Sistemas Inteligentes de Tutoría y Modelos de Usuario y Personalización Adaptativa.

En el año 2011, Chapman & Hall/CRC Press, Taylor And Francis Group publicaron el primer Manual de Minería de Datos Educativos. Este recurso fue creado para aquellos que están interesados ​​en participar en la comunidad de la minería de datos educativos.

Concursos[editar]

En 2010, tuvo lugar la Copa KDD de la Association for Computing Machinery. Se emplearon datos de un entorno educativo. El conjunto de datos fue proporcionado porpor el Datashop del Centro de las Ciencias del Aprendizaje de Pittsbugh. Consistía en más de 1.000.000 de ítems de datos de los estudiantes usando un tutor cognitivo. Seiscientos equipos compitieron por más de 8.000 dólares en premios (que fueron donado por Facebook). La meta para los concursantes era diseñar un algoritmo que, después de aprender de los datos facilitados, hiciera las predicciones más precisas de datos nuevos. Los campeones presentaron un algoritmo que utiliza la generación de características (una forma de representación del aprendizaje), los bosques del azar, y las redes bayesianas.

Costes y retos[editar]

Junto a los avances tecnológicos, tenemoslos costos y los desafíos asociados con la implementación de aplicaciones de EDM. Estas incluyen los costos de almacenar los datos registrados y los costos asociados con la contratación de personal dedicado a la gestión de los sistemas de datos. Además, los sistemas de datos no siempre pueden integrarse a la perfección entre sí e incluso con el apoyo de herramientas estadísticas y de visualización, la creación de una versión simplificada de los datos puede ser difícil. Por otra parte, la elección de qué datos extraer y analizar también puede ser un reto, por lo que las etapas iniciales son largas y el trabajo es muy intensivo. De principio a fin, la estrategia y la ejecución de la EDM requiere que se defienda la privacidad en Internetde para todos los actores involucrados.[17]

Ventajas respecto a los paradigmas tradicionales de investigación educacional[editar]

La minería de datos educacionales ofrece numerosas ventajas comparándola con los paradigmas más tradicionales de investigación relativa a la educación, como experimentos de laboratorio, estudios sociológicos o investigación de diseño. En particular, la creación de repositorios públicos de datos educacionales ha creado una base que hace posible la minería de datos educacionales. En particular, los datos de estos repositorios son totalmente válidos (ya que son datos reales sobre el rendimiento y aprendizaje de estudiantes reales, en ambientes educacionales, tomados en tareas de aprendizaje), y cada vez más fácilmente accesibles para comenzar una investigación. Estos puntos permiten a los investigadores ahorrar mucho tiempo en tareas como la búsqueda de individuos (tales como escuelas, profesores y alumnos), organización de los estudios y recopilación de datos, ya que estos se encuentran directamente accesibles. Aunque el uso de datos previamente recogidos limita los análisis a las cuestiones que conciernen a estos datos, una investigación previa puede resultar extremadamente útil para analizar cuestiones poco relacionadas con los datos tomados, como por ejemplo atributos de los estudiantes tales como comportamiento estratégico o motivación. La disponibilidad de estos datos ha supuesto un gran avance. Una vez definido un modelo de interés educativo sobre los datos, puede probarse con nuevos conjuntos de datos. La transferencia de estos modelos puede no ser trivial, pero el proceso de desarrollo y validación de un modelo para un nuevo contexto es mucho más rápido. Gracias a esta faceta, muchos análisis se han podido repetir sobre distintos sistemas o contextos de aprendizaje. Además, la existencia de miles de alumnos que usan herramientas de aprendizaje similares, aunque sea en distintos contextos, aporta una posibilidad nueva de estudiar la influencia de factores contextuales en profesores y alumnos. Históricamente, ha sido muy difícil estudiar cómo las diferencias entre grupos de profesores o clases influencian en aspectos específicos del aprendizaje. Este tipo de análisis resulta mucho más fácil con la minería de datos. De manera similar, el impacto de diferencias individuales ha sido difícil de estudiar estadísticamente con métodos tradicionales. La minería de datos aplicada al ambiente educativo posee el potencial de extender un conjunto de herramientas mucho más amplio para el análisis de cuestiones importantes sobre diferencias individuales.[1]

Críticas[editar]

  • La generalización. La investigación en EDM puede ser específica para el entorno educativo en particular y el momento en que se realizó la investigación, y como tal, puede no ser generalizable a otras instituciones. La investigación también indica que el campo de la minería de datos educativos se concentra en América del Norte y las culturas occidentales y, por tanto, otros países y culturas no pueden ser representados en las investigaciones llevadas a cabo. El desarrollo de modelos futuros debe considerar otros contextos.[18]
  • La privacidad. La privacidad individual es una preocupación constante para la aplicación de herramientas de minería de datos. Con las herramientas gratuitas, accesibles y fáciles de usar en el mercado, los estudiantes y sus familias pueden estar en riesgo por culpa de la información que los alumnos aportan al sistema de aprendizaje, con la esperanza de recibir la retroalimentación que beneficie a su rendimiento futuro. Como los usuarios se convierten en expertos en la comprensión de la privacidad en línea, los administradores de herramientas de minería de datos educativos tienen que ser proactivos en la protección de la privacidad de sus usuarios y ser transparentes acerca de cómo y con quién será compartida la información. El desarrollo de herramientas de EDM debe considerar la protección de la privacidad individual al tiempo que el avance de la investigación en este campo.[18]
  • El plagio. La detección del plagio es un desafío permanente para los educadores y profesores, ya sea en el aula o en línea. Sin embargo, debido a las complejidades asociadas con la detección y prevención plagio digital en particular, las herramientas de minería de datos educativos actualmente no son lo suficientemente sofisticados como para hacer frente a este problema con precisión. Por lo tanto, el desarrollo de la capacidad de predicción en las cuestiones relacionadas con el plagio debe ser un área de enfoque en la investigación futura.[18]
  • La adopción. No se sabe cómo de generalizada está la adopción del EDM ni el grado en que las instituciones han aplicado y considerado la implementación de una estrategia de EDM. Así, no está claro si existen barreras que impidan que los usuarios adopten EDM en sus entornos educativos.[18]
  • Ética. La minería de datos es el proceso de analizar gran cantidad de datos para descubrir patrones de comportamiento y predecir acciones futuras. La explotación de datos tiene muchas aplicaciones útiles, pero también tiene un enfoque meramente exploratorio que hace discutible la validez de ciertas deducciones. El uso de información personal con fines predictivos tiene consecuencias directas sobre la vida de las personas y exige por tanto actuar en un marco de responsabilidad. Se hace necesario entonces un código de ética.[19]

Véase también[editar]

Referencias[editar]

  1. a b http://www.it.uc3m.es/jvillena/irc/practicas/10-11/08mem.pdf
  2. C. Romero, S. Ventura. Educational Data Mining: A Review of the State-of-the-Art. IEEE Transaction on Systems, Man, and Cybernetics, Part C: Applications and Reviews. 40(6), 601-618, 2010. Jump up ^
  3. "http://educationaldatamining.org/EDM2008/" Retrieved 2013-09-04
  4. a b c d Baker, Ryan. "Data Mining for Education". oxford, UK: Elsevier. Retrieved 9 February 2014.
  5. Baker, R.S.; Yacef, K (2009). "The state of educational data mining in 2009: A review and future visions". JEDM-Journal of Educational Data Mining 1 (1): 2017
  6. Romero, Cristóbal; Ventura, Sebastián (JAN-FEB 2013). "WIREs Data Mining Knowl Discov". Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery
  7. Romero, Cristóbal; Ventura, Sebastián (2007). "Educational data mining: A survey from 1995 to 2005". Expert Systems with Applications 33 (1): 135–146.
  8. "Assessing the Economic Impact of Copyright Reform in the Area of Technology-Enhanced Learning". Retrieved 6 April 2014
  9. Azarnoush, Bahareh, et al. "Toward a Framework for Learner Segmentation." JEDM-Journal of Educational Data Mining 5.2 (2013): 102-126.
  10. U.S. Department of Education, Office of Educational Technology. "Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics: An Issue Brief". Retrieved 30 March 2014
  11. a b c d Huebner, Richard A. "A survey of educational data-mining research". Research in Higher Education Journal. Retrieved 30 March 2014.
  12. R. Baker (2010) Data Mining for Education. In McGaw, B., Peterson, P., Baker, E. (Eds.) International Encyclopedia of Education (3rd edition), vol. 7, pp. 112-118. Oxford, UK: Elsevier
  13. a b C. Romero, S. Ventura. Educational Data Mining: A Review of the State-of-the-Art. IEEE Transaction on Systems, Man, and Cybernetics, Part C: Applications and Reviews. 40(6), 601-618, 2010.
  14. Handbook of educational data mining. CRC Press. 2010.
  15. "Big Data in Education". Retrieved 11 April 2014.
  16. http://web.archive.org/web/http://catalog.tc.columbia.edu/tc/departments/humandevelopment/cognitivestudiesineducation/
  17. "How Can Educational Data Mining and Learning Analytics Improve and Personalize Education?". Retrieved 9 April 2014.
  18. a b c d Huebner, Richard A. "A survey of educational data-mining research". Research in Higher Education Journal. Retrieved 30 March 2014
  19. http://dialnet.unirioja.es/servlet/articulo?codigo=3264659