la base de données MNIST (Changed National Organization of Benchmarks and Innovation database) est une énorme base de données de chiffres écrits manuellement qui est normalement utilisée pour préparer différents systèmes de traitement d’images. La base de données est en outre généralement utilisée pour préparer et tester dans le domaine de l’apprentissage automatique. Elle a été réalisée en “remélangeant” les exemples des ensembles de données uniques du NIST. Les créateurs ont estimé que, puisque les données de préparation du NIST proviennent de représentants de l’Agence américaine de statistiques, alors que les données de test proviennent de doublures d’écoles secondaires américaines, elles ne sont pas appropriées pour des expériences d’IA. En outre, les images très contrastées du NIST ont été normalisées pour tenir dans une boîte de délimitation de 28×28 pixels et hostiles à l’association, qui présentait des niveaux de gris.
Photos du test MNIST
Images d’essai tirées de l’ensemble de données d’essai du MNIST
La base de données du MNIST contient 60 000 images de préparation et 10 000 images d’essai. La moitié de la série de préparation et la moitié de la série de tests ont été prises à partir de la série de données de préparation du NIST, tandis que l’autre partie de la série de préparation et l’autre partie de la série de tests ont été prises à partir de la série de données d’essai du NIST. Il y a eu plusieurs articles logiques sur les efforts visant à réduire au maximum le taux d’erreurs ; l’un d’eux, utilisant un arrangement progressif de systèmes neuronaux convolutifs, a montré comment obtenir un taux d’erreurs de 0,23% dans la base de données du MNIST. Les premiers fabricants de la base de données tiennent un compte d’une partie des techniques qu’ils ont essayées[5] Dans leur article unique, ils utilisent une machine à vecteur d’aide pour obtenir un taux d’erreur de 0,8%. Un ensemble de données complet comme le MNIST, appelé EMNIST, a été distribué en 2017, qui contient 240 000 images de préparation et 40 000 images de test de chiffres et de caractères écrits manuellement.
Exécution
Quelques analystes ont réalisé une “exécution humaine rapprochée” sur la base de données du MNIST, en utilisant un conseil d’administration de systèmes neuronaux ; dans un document similaire, les créateurs réalisent une exécution deux fois plus importante que celle des personnes sur d’autres tâches de reconnaissance. Le taux d’erreur le plus remarquable indiqué sur le premier site de la base de données est de 12 %, ce qui est obtenu grâce à un classificateur direct et simple sans prétraitement.
En 2004, un taux d’erreur de 0,42 % a été atteint dans la base de données par des analystes utilisant un autre classificateur appelé LIRA, qui est un classificateur neuronal à trois couches de neurones dépendant des principes du perceptron de Rosenblatt.
Quelques scientifiques ont essayé des cadres d’intelligence artificielle en utilisant la base de données mise sous des contorsions arbitraires. Dans ces cas, les cadres sont typiquement des systèmes neuronaux et les mutilations utilisées seront, en général, soit des contorsions relatives, soit des distorsions polyvalentes. De temps en temps, ces cadres peuvent être fructueux ; l’un d’entre eux a permis d’obtenir un taux d’erreur de 0,39% sur la base de données.
En 2011, une erreur de 0,27 %, améliorant le meilleur résultat du passé, a été expliquée par les analystes utilisant un arrangement comparatif des réseaux de neurones. En 2013, une méthodologie dépendant de la régularisation des systèmes neuronaux utilisant DropConnect a été professée pour obtenir un taux d’erreur de 0,21 %[14]. Récemment, [quand ?] la meilleure exécution d’un système neuronal convolutif solitaire était de 0,31 %[15]. En août 2018, la meilleure exécution d’un système neuronal convolutif solitaire préparé sur MNIST préparant des informations en utilisant la croissance des informations en temps réel est de 0.De même, le Centre d’enregistrement parallèle (Khmelnitskiy, Ukraine) a acquis un ensemble de 5 systèmes neuronaux convolutifs qui fonctionnent sur le MNIST avec un taux d’erreur de 0,21 %.
Voici un tableau de quelques-unes des méthodes d’apprentissage machine utilisées sur la base de données et de leur taux d’erreur, par type de classificateur :
Tapez | Classificateur | Distorsion | Prétraitement | Taux d’erreur (%) |
Classificateur linéaire | Classificateur linéaire par paires | Aucune | Deskewing | 7.6[9] |
Voisins les plus proches | K-NN avec déformation non linéaire (P2DHMDM) | Aucune | Bords mobiles | 0.52[19] |
Des souches stimulées | Produit des souches sur les caractéristiques de Haar | Aucune | Caractéristiques de Haar | 0.87[20] |
Classificateur non linéaire | 40 PCA + classificateur quadratique | Aucune | Aucune | 3.3[9] |
Machine à vecteurs de soutien (SVM) | SVM virtuel, deg-9 poly, 2-pixel jittered | Aucune | Deskewing | 0.56[21] |
Réseau neuronal profond (DNN) | 2 couches 784-800-10 | Aucune | Aucune | 1.6[22] |
Réseau neuronal profond | 2 couches 784-800-10 | Déformations élastiques | Aucune | 0.7[22] |
Réseau neuronal profond | 6 couches 784-2500-2000-1500-1000-500-10 | Déformations élastiques | Aucune | 0.35[23] |
Réseau de neurones convolutifs (CNN) | 6 couches 784-40-80-500-1000-2000-10 | Aucune | Expansion des données sur la formation | 0.31[15] |
Réseau de neurones convolutifs | 6 couches 784-50-100-500-1000-10-10 | Aucune | Expansion des données sur la formation | 0.27[24] |
Réseau de neurones convolutifs | Comité des 35 CNN, 1-20-P-40-P-150-10 | Déformations élastiques | Normalisation de la largeur | 0.23[8] |
Réseau de neurones convolutifs | Comité de 5 CNN, 6 couches 784-50-100-500-1000-10-10 | Aucune | Expansion des données sur la formation | 0.21[17][18] |