a base de dados MNIST (Changed National Organization of Benchmarks and Innovation database) é uma enorme base de dados de dígitos escritos manualmente que é normalmente utilizada para preparar diferentes sistemas de tratamento de imagens. A base de dados é também utilizada para a preparação e testes no campo da aprendizagem de máquinas. Foi feita através da “re-blenda” dos exemplos dos conjuntos de dados únicos do NIST. Os fabricantes sentiram que, como o conjunto de dados de preparação do NIST foi retirado de representantes da Agência Americana de Estatística, enquanto o conjunto de dados de testes foi retirado de subestudantes de escolas secundárias americanas, ele não era apropriado para experimentos de IA. Além disso, as imagens altamente contrastantes do NIST foram padronizadas para caber em uma caixa de 28×28 pixels e hostis a associados, que apresentavam níveis de escala de cinza.
Fotos de teste do MNIST
Fotos de teste do conjunto de dados do teste MNIST
A base de dados do MNIST contém 60.000 imagens de preparação e 10.000 imagens de teste. Metade do conjunto de preparação e metade do conjunto de teste foram tiradas do conjunto de dados de preparação do NIST, enquanto a outra porção do conjunto de preparação e a outra porção do conjunto de teste foram tiradas do conjunto de dados de teste do NIST. Houve vários trabalhos lógicos sobre os esforços para alcançar a taxa de erro mais reduzida; um trabalho, utilizando um arranjo progressivo de sistemas neurais convolucionais, calcula como obter uma taxa de erro na base de dados do MNIST de 0,23%. Os primeiros fabricantes da base de dados mantêm um resumo de uma parte das técnicas experimentadas [5]. Em seu único papel, eles utilizam uma máquina vetorial de ajuda para obter um ritmo de erro de 0,8%. Um conjunto de dados abrangente como o MNIST chamado EMNIST foi distribuído em 2017, que contém 240.000 imagens preparadas, e 40.000 imagens de teste de dígitos e caracteres escritos manualmente.
Execução
Alguns poucos analistas têm realizado “execução humana fechada” na base de dados do MNIST, utilizando um quadro de curadores de sistemas neurais; em um trabalho semelhante, os criadores realizam execução duas vezes maior do que pessoas em outras tarefas de reconhecimento. A taxa de erro mais notável listada no primeiro site da base de dados é de 12%, o que é realizado utilizando um classificador direto e simples, sem pré-processamento.
Em 2004, um ritmo de erro de 0,42% foi alcançado na base de dados por analistas que utilizaram outro classificador chamado LIRA, que é um classificador neural com três camadas de neurônios dependentes dos princípios perceptron de Rosenblatt.
Alguns poucos cientistas já experimentaram estruturas de brainpower feitas pelo homem utilizando o banco de dados colocado sob contorções arbitrárias. Os frameworks nestes casos são tipicamente sistemas neurais e as mutilações utilizadas serão, em geral, ou contorções relativas ou distorções versáteis. De vez em quando, esses frameworks podem ser frutíferos; um desses frameworks conseguiu uma taxa de erro no banco de dados de 0,39 por cento.
Em 2011, um ritmo de erro de 0,27%, melhorando o melhor resultado do passado, foi contabilizado pelos analistas, utilizando um arranjo comparativo das redes neurais. Em 2013, uma metodologia dependente da regularização dos sistemas neurais utilizando DropConnect foi professada para atingir uma taxa de erro de 0,21%[14] Recentemente,[quando?] a melhor execução do sistema neural convolucional único foi a taxa de erro de 0,31%[15] A partir de agosto de 2018, a melhor execução de um sistema neural convolucional solitário preparado no MNIST preparando informações utilizando o crescimento da informação em tempo real é 0.Da mesma forma, o Centro de Registro Paralelo (Khmelnitskiy, Ucrânia) adquiriu um equipamento de apenas 5 sistemas neuronais convolucionais que funciona no MNIST a uma taxa de erro de 0,21%.
Esta é uma tabela de alguns dos métodos de aprendizagem de máquinas utilizados no banco de dados e suas taxas de erro, por tipo de classificador:
Tipo | Classificador | Distorção | Pré-processamento | Taxa de erro (%) |
Classificador Linear | Classificador linear em pares | Nenhum | Deskewing | 7.6[9] |
Vizinhos do K-Nearest | K-NN com deformação não-linear (P2DHMDM) | Nenhum | Bordas deslocáveis | 0.52[19] |
Cotos Impulsionados | Produto de cotos em Haar características | Nenhum | Características Haar | 0.87[20] |
Classificador não-linear | 40 PCA + classificador quadrático | Nenhum | Nenhum | 3.3[9] |
Máquina de Apoio Vetorial (SVM) | SVM Virtual, deg-9 poli, 2-pixel jittered | Nenhum | Deskewing | 0.56[21] |
Rede neural profunda (DNN) | 2 camadas 784-800-10 | Nenhum | Nenhum | 1.6[22] |
Rede neural profunda | 2 camadas 784-800-10 | Distorções elásticas | Nenhum | 0.7[22] |
Rede neural profunda | 6-camadas 784-2500-2000-1500-1000-500-10 | Distorções elásticas | Nenhum | 0.35[23] |
Rede neural convolucional (CNN) | 6 camadas 784-40-80-500-1000-2000-2000-10 | Nenhum | Expansão dos dados do treinamento | 0.31[15] |
Rede neural convolucional | 6-camadas 784-50-100-500-1000-10-10 | Nenhum | Expansão dos dados do treinamento | 0.27[24] |
Rede neural convolucional | Comitê de 35 CNNs, 1-20-P-40-P-150-10 | Distorções elásticas | Normalizações de largura | 0.23[8] |
Rede neural convolucional | Comitê de 5 CNNs, 6 camadas 784-50-100-500-1000-10-10 | Nenhum | Expansão dos dados do treinamento | 0.21[17][18] |