Baza danych MNIST (Changed National Organization of Benchmarks and Innovation database) jest ogromną bazą ręcznie zapisywanych cyfr, która zazwyczaj jest wykorzystywana do przygotowania różnych systemów obsługi obrazów. Baza danych jest dodatkowo powszechnie wykorzystywana do przygotowania i testowania w dziedzinie uczenia się maszynowego. Została ona stworzona poprzez “re-blending” przykładów z unikalnych zbiorów danych NIST. Twórcy uznali, że skoro zestaw danych przygotowawczych NIST został zaczerpnięty od przedstawicieli Amerykańskiej Agencji Statystycznej, a zestaw danych testowych od amerykańskich uczniów szkół średnich, to nie jest on odpowiedni do eksperymentów z SI. Co więcej, wysoce kontrastowe zdjęcia z NIST zostały wystandaryzowane tak, aby zmieściły się w ramce ograniczającej 28×28 pikseli i były nieprzyjazne dla skojarzeń, które prezentowały poziomy skali szarości.
Zdjęcia testowe MNIST
Zdjęcia testowe z zestawu danych testowych MNIST
Baza danych MNIST zawiera 60.000 zdjęć przygotowawczych i 10.000 zdjęć testowych. Połowa zestawu przygotowawczego i połowa zestawu testowego została pobrana z zestawu przygotowawczego NIST, podczas gdy druga część zestawu przygotowawczego i druga część zestawu testowego została pobrana z zestawu testowego NIST. Były różne prace logiczne, w których starano się uzyskać najbardziej zredukowany współczynnik błędów; jedna z nich, wykorzystująca progresywny układ neuronów konwolucyjnych, podaje jak uzyskać współczynnik błędów w bazie danych MNIST na poziomie 0,23%. Pierwsi twórcy bazy danych przechowują w niej część wypróbowanych technik[5]. W swoim unikalnym artykule wykorzystują oni maszynę wektorową, aby uzyskać błędne tempo błędu na poziomie 0,8%. Wszechogarniający zbiór danych, taki jak MNIST o nazwie EMNIST, został rozprowadzony w 2017 r., który zawiera 240 000 zdjęć przygotowujących i 40 000 zdjęć testowych ręcznie zapisanych cyfr i znaków.
Wykonanie
Kilku analityków wykonało “egzekucję bliską człowiekowi” w bazie danych MNIST, korzystając z tablicy powierników systemów neuronowych; w podobnym artykule twórcy wykonują egzekucję dwukrotnie większą niż ludzie na innych zadaniach rozpoznawczych. Najbardziej godny uwagi wskaźnik błędów wymieniony na pierwszej stronie bazy danych wynosi 12 procent, co jest osiągane przy użyciu prostego bezpośredniego klasyfikatora bez wstępnego przetwarzania.
W 2004 roku najlepszy wskaźnik błędu 0,42% został osiągnięty w bazie danych przez analityków korzystających z innego klasyfikatora o nazwie LIRA, który jest klasyfikatorem neuronowym z trzema warstwami neuronów zależnymi od zasad perceptronu Rosenblatta.
Kilku naukowców wypróbowało stworzone przez człowieka ramy brainpower wykorzystujące bazę danych umieszczoną pod dowolnymi zniekształceniami. Ramy w tych przypadkach są zazwyczaj systemy neuronowe i okaleczenia wykorzystywane będą, ogólnie rzecz biorąc, albo względne zniekształcenia lub wszechstronne zniekształcenia. Teraz i znowu, te ramy mogą być owocne; jeden taki ram osiągnięty błędne tempo na bazie danych 0,39 procent.
W 2011 r., błędne tempo na poziomie 0,27 proc., wzmacniające najlepszy wynik z przeszłości, zostało uwzględnione przez analityków wykorzystujących porównawcze rozmieszczenie sieci neuronowych. W 2013 r. metodologia polegająca na regularyzowaniu systemów neuronowych z wykorzystaniem DropConnect uzyskała błędne wyniki na poziomie 0,21 proc.[14] Ostatnio, [kiedy?] najlepsze wykonanie pojedynczego systemu neuronuronów konwulsyjnych osiągnęło poziom błędu 0,31 proc.[15] Według stanu na sierpień 2018 r., najlepsze wykonanie samotnego systemu neuronów konwulsyjnych przygotowanego na MNIST przygotowującego informacje wykorzystujące wzrost informacji w czasie rzeczywistym wynosi 0. Podobnie, Równoległe Centrum Rejestracji (Chmielnicki, Ukraina) uzyskało wyposażenie zaledwie 5 neuronów konwolucyjnych, które na MNIST pracują z 0,21% błędem.
Jest to tabela niektórych metod uczenia maszynowego używanych w bazie danych i ich poziomów błędów, według typu klasyfikatora:
Type | Classifier | Distortion | Preprocessing | Error rate (%) |
Linear classifier | Pairwise linear classifier | None | Deskewing | 7.6[9] |
K-Nearest Neighbors | K-NN with non-linear deformation (P2DHMDM) | None | Shiftable edges | 0.52[19] |
Boosted Stumps | Product of stumps on Haar features | None | Haar features | 0.87[20] |
Non-linear classifier | 40 PCA + quadratic classifier | None | None | 3.3[9] |
Support-vector machine (SVM) | Virtual SVM, deg-9 poly, 2-pixel jittered | None | Deskewing | 0.56[21] |
Deep neural network (DNN) | 2-layer 784-800-10 | None | None | 1.6[22] |
Deep neural network | 2-layer 784-800-10 | Elastic distortions | None | 0.7[22] |
Deep neural network | 6-layer 784-2500-2000-1500-1000-500-10 | Elastic distortions | None | 0.35[23] |
Convolutional neural network (CNN) | 6-layer 784-40-80-500-1000-2000-10 | None | Expansion of the training data | 0.31[15] |
Convolutional neural network | 6-layer 784-50-100-500-1000-10-10 | None | Expansion of the training data | 0.27[24] |
Convolutional neural network | Committee of 35 CNNs, 1-20-P-40-P-150-10 | Elastic distortions | Width normalizations | 0.23[8] |
Convolutional neural network | Committee of 5 CNNs, 6-layer 784-50-100-500-1000-10-10 | None | Expansion of the training data | 0.21[17][18]
|