la base de datos del MNIST (Base de datos de la Organización Nacional de Puntos de Referencia e Innovación Modificada) es una enorme base de datos de dígitos escritos manualmente que se utiliza normalmente para preparar diferentes sistemas de manejo de imágenes. Además, la base de datos se utiliza generalmente para la preparación y el ensayo en el campo del aprendizaje por máquina. Se creó “remezclando” los ejemplos de los conjuntos de datos únicos del NIST. Los fabricantes consideraron que, como el conjunto de datos de preparación del NIST se tomó de representantes de la Agencia de Estadística de los Estados Unidos, mientras que el conjunto de datos de prueba se tomó de suplentes de escuelas secundarias de los Estados Unidos, no era apropiado para los experimentos de IA. Además, las imágenes altamente contrastantes del NIST fueron estandarizadas para que encajaran en una caja delimitadora de 28×28 píxeles y hostiles a los asociados, que presentaban niveles de escala de grises.
Fotos de prueba del MNIST
Imágenes de prueba del conjunto de datos de prueba del MNIST
La base de datos del MNIST contiene 60.000 imágenes de preparación y 10.000 imágenes de prueba. La mitad del conjunto de preparación y la otra mitad del conjunto de pruebas se tomaron del conjunto de datos de preparación del NIST, mientras que la otra parte del conjunto de preparación y la otra parte del conjunto de pruebas se tomaron del conjunto de datos de prueba del NIST. Ha habido varios documentos lógicos sobre los esfuerzos para lograr la tasa de error más reducida; un documento, utilizando un arreglo progresivo de sistemas neurales convolucionales, averigua cómo obtener una tasa de error en la base de datos del MNIST del 0,23%. Los primeros creadores de la base de datos mantienen un resumen de una parte de las técnicas probadas en ella[5]. En su único artículo, utilizan una máquina de vectores de ayuda para conseguir un porcentaje de errores garrafales del 0,8%. En 2017 se ha distribuido un conjunto de datos como el MNIST llamado EMNIST, que contiene 240.000 imágenes de preparación, y 40.000 imágenes de prueba de dígitos y caracteres escritos manualmente.
Ejecución
Unos pocos analistas han logrado la “ejecución humana cercana” en la base de datos del MNIST, utilizando un consejo de administración de sistemas neuronales; en un documento similar, los creadores logran una ejecución doble que la de las personas en otras tareas de reconocimiento. La tasa de error más notable que figura en el primer sitio de la base de datos es del 12%, lo que se logra utilizando un clasificador directo directo sin preprocesamiento.
En 2004, se logró un ritmo de error en el mejor de los casos del 0,42% en la base de datos por parte de los analistas que utilizaron otro clasificador llamado LIRA, que es un clasificador neural con tres capas de neuronas dependientes de los principios de perceptrón de Rosenblatt.
Unos pocos científicos han probado marcos de poder cerebral hechos por el hombre utilizando la base de datos puesta bajo contorsiones arbitrarias. Los marcos en estos casos son típicamente sistemas neuronales y las mutilaciones utilizadas serán, en general, contorsiones relativas o distorsiones versátiles. De vez en cuando, estos marcos pueden ser fructíferos; uno de estos marcos logró una tasa de errores en la base de datos del 0,39 por ciento.
En 2011, los analistas que utilizaron un arreglo comparativo de redes neuronales dieron cuenta de un 0,27% de errores garrafales, lo que mejora el mejor resultado del pasado. En 2013, se ha profesado una metodología dependiente de la regularización de los sistemas neurales que utiliza DropConnect para lograr una tasa de error del 0,21 por ciento[14]. Recientemente,[¿cuándo?] la mejor ejecución de un sistema neural convolucional solitario preparado en el MNIST preparando información utilizando el crecimiento de la información en tiempo real es 0.26 por ciento de tasa de error.[16] Asimismo, el Centro de Registro Paralelo (Khmelnitskiy, Ucrania) adquirió un equipo de sólo 5 sistemas neurales convolucionales que se ejecuta en el MNIST con una tasa de error del 0,21 por ciento.
Esta es una tabla de algunos de los métodos de aprendizaje de la máquina utilizados en la base de datos y sus tasas de error, por tipo de clasificador:
Escriba | Clasificador | Distorsión | Preprocesamiento | Tasa de error (%) |
Clasificador lineal | Clasificador lineal por pares | Ninguno | Desincronización | 7.6[9] |
Vecinos de K-Nearest | K-NN con deformación no lineal (P2DHMDM) | Ninguno | Bordes desplazables | 0.52[19] |
Caída de los muñones… | El producto de los muñones de Haar presenta | Ninguno | Características de Haar | 0.87[20] |
Clasificador no lineal | 40 PCA + clasificador cuadrático | Ninguno | Ninguno | 3.3[9] |
Máquina de soporte vectorial (SVM) | SVM virtual, deg-9 poly, 2 píxeles nerviosos | Ninguno | Desincronización | 0.56[21] |
Red neuronal profunda (DNN) | 2 capas 784-800-10 | Ninguno | Ninguno | 1.6[22] |
Red neuronal profunda | 2 capas 784-800-10 | Distorsiones elásticas | Ninguno | 0.7[22] |
Red neuronal profunda | 6-capas 784-2500-2000-1500-1000-500-10 | Distorsiones elásticas | Ninguno | 0.35[23] |
Red neuronal convolucional (CNN) | 6-capas 784-40-80-500-1000-2000-10 | Ninguno | Ampliación de los datos de entrenamiento | 0.31[15] |
Red neuronal convolutiva | 6-capas 784-50-100-500-1000-10-10 | Ninguno | Ampliación de los datos de entrenamiento | 0.27[24] |
Red neuronal convolutiva | Comité de 35 CNN, 1-20-P-40-P-150-10 | Distorsiones elásticas | Normalización de la anchura | 0.23[8] |
Red neuronal convolutiva | Comité de 5 CNN, 6-capas 784-50-100-500-1000-10-10 | Ninguno | Ampliación de los datos de entrenamiento | 0.21[17][18] |