Base de datos MNIST

De Wikipedia, la enciclopedia libre
Imágenes de muestra del conjunto de datos de prueba MNIST

La base de datos MNIST (por sus siglas en inglés, Modified National Institute of Standards and Technology database)[1] es una extensa colección de base de datos que se utiliza ampliamente para el entrenamiento de diversos sistemas de procesamiento de imágenes.[2][3]​ También se emplea con frecuencia en el campo del aprendizaje automático para tareas de entrenamiento y prueba.[4][5]

Esta base de datos fue creada mediante la combinación de muestras de los conjuntos de datos originales del Instituto Nacional de Estándares y Tecnología (National Institute of Standards and Technology o NIST, en inglés).[6]​ Los creadores tomaron esta decisión considerando que el conjunto de entrenamiento del NIST provenía de empleados de la Oficina del Censo estadounidense, mientras que el conjunto de prueba se obtenía de estudiantes de secundaria estadounidenses, lo que no era adecuado para experimentos de aprendizaje automático.[7]​ Además, las imágenes en blanco y negro del NIST fueron normalizadas para ajustarse a un cuadro delimitador de 28x28 píxeles y se suavizaron, lo que introdujo niveles de escala de grises.[7]

La base de datos MNIST consta de 60.000 imágenes de entrenamiento y 10.000 imágenes de prueba.[8]​ La mitad de las imágenes de entrenamiento y la mitad de las imágenes de prueba se obtuvieron del conjunto de datos de entrenamiento del NIST, mientras que la otra mitad se tomó del conjunto de datos de prueba del NIST.[9]​ Los creadores originales de la base de datos tienen una lista de algunos de los métodos que se probaron en ella.[7]​ En su documento original, utilizaron una máquina de vectores de soporte para lograr una tasa de error del 0,8%.[10]

El MNIST Extendido (en inglés, Extended MNIST o EMNIST) es un nuevo conjunto de datos desarrollado y publicado por el NIST como sucesor (definitivo) de MNIST.[11][12]​ Mientras que MNIST solo incluía imágenes de dígitos manuscritos, EMNIST incluye todas las imágenes de la Base de Datos Especial 19 del NIST, que abarca tanto letras mayúsculas como minúsculas, además de dígitos.[13][14]​ Las imágenes de EMNIST se han convertido al mismo formato de 28x28 píxeles y se han aplicado el mismo proceso de normalización que se utilizó en MNIST. Por lo tanto, es probable que las herramientas que funcionan con el conjunto de datos MNIST, que es más antiguo y más pequeño, también funcionen sin modificaciones con EMNIST.

Historia[editar]

El conjunto de imágenes de la base de datos MNIST fue creado en 1994 mediante la combinación de dos bases de datos del NIST: la Base de Datos Especial 1 y la Base de Datos Especial 3. La Base de Datos Especial 1 contiene dígitos escritos por estudiantes de secundaria, mientras que la Base de Datos Especial 3 consiste en dígitos escritos por empleados de la Oficina del Censo de Estados Unidos.[7]

El conjunto de datos original consistía en imágenes binarias de 128x128 píxeles, las cuales fueron procesadas y convertidas en imágenes de 28x28 píxeles en escala de grises. Inicialmente, tanto el conjunto de entrenamiento como el conjunto de pruebas contenían 60.000 muestras cada uno. Sin embargo, posteriormente se descartaron 50.000 muestras del conjunto de pruebas.[15]

Rendimiento[editar]

Algunos investigadores han alcanzado un "rendimiento casi humano" en la base de datos MNIST utilizando un comité de redes neuronales. En el mismo artículo, los autores logran un rendimiento que duplica el de los humanos en otras tareas de reconocimiento.[16]​ La tasa de error más alta registrada[7]​ en el sitio web original de la base de datos es del 12%, y se logra utilizando un clasificador lineal simple sin preprocesamiento.[10]

En 2004, expertos lograron alcanzar una tasa de error del 0,42% en el mejor de los casos utilizando un nuevo clasificador llamado LIRA. Este clasificador es un clasificador neuronal que consta de tres capas de neuronas y se basa en los principios del perceptrón de Rosenblatt.[17]

Algunos investigadores han evaluado sistemas de inteligencia artificial utilizando la base de datos MNIST sometida a distorsiones aleatorias. En estos casos, los sistemas suelen ser redes neuronales y las distorsiones empleadas suelen ser transformaciones afines o deformaciones elásticas.[7]​ En ocasiones, estos sistemas han tenido mucho éxito, como en el caso en el que se logró una tasa de error en la base de datos del 0,39%.[18]

En 2011, se reportó una tasa de error del 0,27%, mejorando el mejor resultado previo, mediante el uso de un sistema similar de redes neuronales.[19]​ En 2013, se afirmó que un enfoque basado en la regularización de las redes neuronales utilizando DropConnect lograba una tasa de error del 0,21%.[20]

En 2016, se alcanzó el mejor rendimiento hasta el momento con una sola red neuronal convolucional, con una tasa de error del 0,25%.[21]​ En agosto de 2018, la mejor tasa de error registrada con una sola red neuronal convolucional entrenada con datos de entrenamiento MNIST sin aumento de datos fue del 0,25%.[21][22]​ Además, el Parallel Computing Center (Khmelnytskyi, Ucrania) logró un conjunto de solo 5 redes neuronales convolucionales que alcanzaron una tasa de error del 0,21% en MNIST.[23][24]

Es importante tener en cuenta que algunas imágenes del conjunto de datos de prueba pueden ser apenas legibles y esto puede dificultar alcanzar tasas de error de prueba del 0%.[25]​ En 2018, investigadores del Departamento de Ingeniería de Sistemas e Información de la Universidad de Virginia anunciaron un error del 0,18% utilizando tres tipos de redes neuronales apiladas simultáneamente: redes neuronales totalmente conectadas, recurrentes y convolucionales.[26]

Clasificadores[editar]

La siguiente tabla muestra algunos métodos de aprendizaje automático utilizados en la base de datos MNIST y sus respectivos porcentajes de error, organizados por tipo de clasificador:

Tipo Clasificador Distorsión Preprocesamiento Error (%)
Clasificador lineal Análisis discriminante lineal Ninguno Enderezamiento 7.6[10]
K vecinos más próximos K-NN con transformaciones rígidas Ninguno Ninguno 0.96[27]
K vecinos más próximos K-NN con deformación no lineal (P2DHMDM) Ninguno Bordes desplazables 0.52[28]
Boosted Stumps Producto de stumps en las características de Haar Ninguno Características de Haar 0.87[29]
Clasificador no lineal 40 PCA + clasificador cuadrático Ninguno Ninguno 3.3[10]
Random Forest Bosques aleatorios unificados rápidos para supervivencia, regresión y clasificación (RF-SRC)[30] Ninguno Importancia estadística simple de píxeles 2.8[30]
Máquinas de vectores de soporte (SVM) SVM virtual, deg-9 poly, 2-pixel jittered Ninguno Enderezamiento 0.56[31]
Red neuronal profunda (DNN) 2 capas 784-800-10 Ninguno Ninguno 1.6[32]
Red neuronal profunda (DNN) 2-capas 784-800-10 Deformaciones elásticas Ninguno 0.7[32]
Red neuronal profunda (DNN) 6-capas 784-2500-2000-1500-1000-500-10 Deformaciones elásticas Ninguno 0.35[33]
Red neuronal convolucional (CNN) 6-capas 784-40-80-500-1000-2000-10 Ninguno Ampliación de los datos de entrenamiento 0.31[34]
Red neuronal convolucional (CNN) 6-capas 784-50-100-500-1000-10-10 Ninguno Ampliación de los datos de entrenamiento 0.27[35]
Red neuronal convolucional (CNN) 13-capas 64-128(5x)-256(3x)-512-2048-256-256-10 Ninguno Ninguno 0.25[21]
Red neuronal convolucional (CNN) Comité de 35 CNN, 1-20-P-40-P-150-10 Deformaciones elásticas Normalizaciones de anchura 0.23[16]
Red neuronal convolucional (CNN) Comité de 5 CNN, 6 capas 784-50-100-500-1000-10-10 Ninguno Ampliación de los datos de formación 0.21[23][24]
Aprendizaje profundo multimodelo aleatorio (RMDL) 10 NN-10 RNN - 10 CNN Ninguno Ninguno 0.18[26]
Red neuronal convolucional (CNN) Comité de 20 CNNS con redes de compresión y excitación[36] Ninguno Aumento de datos 0.17[37]
Red neuronal convolucional (CNN) Conjunto de 3 CNN con distintos tamaños de kernel Ninguno Aumento de datos consistente en rotación y traslación 0.09[38]

Véase también[editar]

Referencias[editar]

  1. «THE MNIST DATABASE of handwritten digits». Yann LeCun, Courant Institute, NYU Corinna Cortes, Google Labs, New York Christopher J.C. Burges, Microsoft Research, Redmond. 
  2. «Support vector machines speed pattern recognition - Vision Systems Design». Vision Systems Design (en inglés). Consultado el 17 de agosto de 2013. 
  3. Gangaputra, Sachin. «Handwritten digit database». cis.jhu.edu (en inglés). Consultado el 17 de agosto de 2013. 
  4. Qiao, Yu (2007). «THE MNIST DATABASE of handwritten digits». gavo.t.u-tokyo.ac.jp (en inglés). Consultado el 18 de agosto de 2013. 
  5. Platt, John C. (1999). «Using analytic QP and sparseness to speed training of support vector machines». Advances in Neural Information Processing Systems (en inglés): 557-563. Archivado desde el original el 4 de marzo de 2013. Consultado el 18 de agosto de 2013. 
  6. Grother, Patrick J. (16 de marzo de 1995). «NIST Special Database 19 - Handprinted Forms and Characters Database». National Institute of Standards and Technology (en inglés). 
  7. a b c d e f LeCun, Yann. «The MNIST Handwritten Digit Database». Yann LeCun's Website yann.lecun.com (en inglés). Consultado el 30 de abril de 2020. 
  8. Kussul, Ernst; Baidyk, Tatiana (2004). «Improved method of handwritten digit recognition tested on MNIST database». Image and Vision Computing (en inglés) 22: 971-981. doi:10.1016/j.imavis.2004.03.008. 
  9. Zhang, Bin; Srihari, Sargur N. (2004). «Fast k-Nearest Neighbor Classification Using Cluster-Based Trees». IEEE Transactions on Pattern Analysis and Machine Intelligence (en inglés) 26: 525-528. PMID 15382657. doi:10.1109/TPAMI.2004.1265868. Consultado el 20 de abril de 2020. 
  10. a b c d LeCun, Yann; Bottou, Léon; Bengio, Yoshua; Haffner, Patrick (1998). «Gradient-Based Learning Applied to Document Recognition». Proceedings of the IEEE (en inglés) 86: 2278-2324. doi:10.1109/5.726791. Consultado el 18 de agosto de 2013. 
  11. Cohe, Gregory (4 de abril de 2022). «The EMNIST Dataset». NIST (en inglés). Consultado el 11 de abril de 2022. 
  12. «NIST Special Database 19». NIST (en inglés). 27 de agosto de 2010. Consultado el 11 de abril de 2022. 
  13. Cohen, G.; Afshar, S.; Tapson, J.; van Schaik, A. (2017). «EMNIST: an extension of MNIST to handwritten letters.». arXiv:1702.05373  [cs.CV]. 
  14. Cohen, G.; Afshar, S.; Tapson, J.; van Schaik, A. (2017). «EMNIST: an extension of MNIST to handwritten letters.». arXiv:1702.05373v1  [cs.CV]. 
  15. Yadav, Chhavi; Bottou, Leon (2019). «Cold Case: The Lost MNIST Digits». Curran Associates, Inc. (en inglés) 32. Consultado el Advances in Neural Information Processing Systems. 
  16. a b Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen (2012). «Multi-column deep neural networks for image classification». 2012 IEEE Conference on Computer Vision and Pattern Recognition (en inglés). pp. 3642-3649. ISBN 978-1-4673-1228-8. doi:10.1109/CVPR.2012.6248110. 
  17. Kussul, Ernst; Baidyk, Tatiana (2004). «Improved method of handwritten digit recognition tested on MNIST database». Image and Vision Computing (en inglés) 22: 971-981. doi:10.1016/j.imavis.2004.03.008. Archivado desde el original el 21 de septiembre de 2013. Consultado el 20 de septiembre de 2013. 
  18. Ranzato, Marc'Aurelio; Poultney, Christopher; Chopra, Sumit; LeCun, Yann (2006). «Efficient Learning of Sparse Representations with an Energy-Based Model». Advances in Neural Information Processing Systems (en inglés) 19: 1137-1144. Consultado el 20 de septiembre de 2013. 
  19. Ciresan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (2011). «Convolutional neural network committees for handwritten character classification». 2011 International Conference on Document Analysis and Recognition (ICDAR) (en inglés). pp. 1135-1139. ISBN 978-1-4577-1350-7. doi:10.1109/ICDAR.2011.229. Consultado el 20 de septiembre de 2013. 
  20. Wan, Li; Zeiler, Matthew; Zhang, Sixin; LeCun, Yann; Fergus, Rob (2013). Regularization of Neural Network using DropConnect (en inglés). 
  21. a b c «Lets Keep it simple, Using simple architectures to outperform deeper and more complex architectures». github (en inglés). 2016. Consultado el 3 de diciembre de 2020. 
  22. «Towards Principled Design of Deep Convolutional Networks: Introducing SimpNet». Github (en inglés). 2018. Consultado el 3 de diciembre de 2020. 
  23. a b Romanuke, Vadim. «Parallel Computing Center (Khmelnytskyi, Ukraine) represents an ensemble of 5 convolutional neural networks which performs on MNIST at 0.21 percent error rate.» (en inglés). Consultado el 24 de noviembre de 2016. 
  24. a b Romanuke, Vadim (2016). «Training data expansion and boosting of convolutional neural networks for reducing the MNIST dataset error rate». Research Bulletin of NTUU "Kyiv Polytechnic Institute" (en inglés) 6: 29-34. doi:10.20535/1810-0546.2016.6.84115. 
  25. «Classify MNIST digits using Convolutional Neural Networks». GitHub (en inglés). Consultado el 3 de agosto de 2018. 
  26. a b Kowsari, Kamran; Heidarysafa, Mojtaba; Brown, Donald E.; Meimandi, Kiana Jafari; Barnes, Laura E. (3 de mayo de 2018). «RMDL: Random Multimodel Deep Learning for Classification». Proceedings of the 2018 International Conference on Information System and Data Mining (en inglés). doi:10.1145/3206098.3206111. 
  27. Lindblad, Joakim; Sladoje, Nataša (Enero de 2014). «Linear time distances between fuzzy sets with applications to pattern matching and classification». IEEE Transactions on Image Processing (en inglés) 23: 126-136. PMID 24158476. doi:10.1109/TIP.2013.2286904. 
  28. Keysers, Daniel; Deselaers, Thomas; Gollan, Christian; Ney, Hermann (Agosto de 2007). «Deformation models for image recognition». IEEE Transactions on Pattern Analysis and Machine Intelligence (en inglés) 29: 1422-1435. PMID 17568145. doi:10.1109/TPAMI.2007.1153. 
  29. Kégl, Balázs; Busa-Fekete, Róbert (2009). «Boosting products of base classifiers». Proceedings of the 26th Annual International Conference on Machine Learning (en inglés): 497-504. ISBN 9781605585161. doi:10.1145/1553374.1553439. Consultado el 27 de agosto de 2013. 
  30. a b «RandomForestSRC: Fast Unified Random Forests for Survival, Regression, and Classification (RF-SRC)» (en inglés). 21 de enero de 2020. 
  31. Decoste, Dennis; Schölkopf, Bernhard (2002). «Training Invariant Support Vector Machines». Machine Learning (en inglés) 46: 161-190. ISSN 0885-6125. OCLC 703649027. doi:10.1023/A:1012454411458. 
  32. a b Simard, Patrice Y.; Steinkraus, Dave; Platt, John C. (2003). «Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis». Proceedings of the Seventh International Conference on Document Analysis and Recognition (en inglés) 1. Institute of Electrical and Electronics Engineers. p. 958. ISBN 978-0-7695-1960-9. doi:10.1109/ICDAR.2003.1227801. 
  33. Ciresan, Claudiu Dan; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Juergen (Diciembre de 2010). «Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition». Neural Computation (en inglés) 22: 3207-20. PMID 20858131. doi:10.1162/NECO_a_00052. 
  34. Romanuke, Vadim (16 de noviembre de 2016). «The single convolutional neural network best performance in 18 epochs on the expanded training data at Parallel Computing Center, Khmelnytskyi, Ukraine» (en inglés). 
  35. Romanuke, Vadim. «Parallel Computing Center (Khmelnytskyi, Ukraine) gives a single convolutional neural network performing on MNIST at 0.27 percent error rate» (en inglés). Consultado el 24 de noviembre de 2016. 
  36. Hu, Jie; Shen, Li; Albanie, Samuel; Sun, Gang; Wu, Enhua (2019). «Squeeze-and-Excitation Networks». IEEE Transactions on Pattern Analysis and Machine Intelligence (en inglés) 42: 2011-2023. PMID 31034408. doi:10.1109/TPAMI.2019.2913372. 
  37. «GitHub - Matuzas77/MNIST-0.17: MNIST classifier with average 0.17% error». GitHub (en inglés). 25 de febrero de 2020. 
  38. Sanghyeon, An (4 de octubre de 2020). «An Ensemble of Simple Convolutional Neural Network Models for MNIST Digit Recognition». arxiv (en inglés). 

Bibliografía[editar]

Enlaces externos[editar]