Zestaw danych CIFAR-10 składa się z 60000 zdjęć cieniujących 32×32 w 10 klasach, z 6000 zdjęć dla każdej klasy. Zestaw danych podzielony jest na pięć kęp przygotowujących i jedną kępkę testową, każda z nich zawiera 10000 zdjęć. Kiść testowa zawiera dokładnie 1000 przypadkowo wybranych zdjęć z każdej klasy. Gromady przygotowawcze zawierają resztę zdjęć w dowolnych żądaniach, jednak niektóre grupy przygotowawcze mogą zawierać większą liczbę zdjęć z jednej klasy niż z innej. Pomiędzy nimi, grupy przygotowawcze zawierają dokładnie 5000 zdjęć z każdej klasy.
Tutaj są klasy w zbiorze danych, tak jak 10 nieregularnych obrazków z każdej z nich: Istnieje 50000 zdjęć przygotowawczych i 10000 zdjęć testowych.
Zajęcia są całkowicie niezwiązane ze sobą. Nie ma pokrycia wśród pojazdów i ciężarówek. “Samochód” obejmuje pojazdy, SUV-y, tego typu rzeczy. “Ciężarówka” obejmuje tylko ogromne ciężarówki. Nie zawiera też pickupów.
Wyniki wzoru
Możesz odkryć pewne powtarzalne wyniki benchmarkingu na tym zbiorze danych na stronie zadań dla cuda-convnet. Te wyniki zostały uzyskane za pomocą neuronu konwulsyjnego. Szybko, są one 18% błąd testowy bez wzrostu informacji i 11% z. Co więcej, Jasper Snoek ma inną pracę, w której wykorzystał postęp bayesowski hiperparametr do odkrycia przyzwoitych ustawień zgnilizny wagowej i różnych hiperparametrów, co pozwoliło mu uzyskać błąd testowy w tempie 15% (bez wzrostu informacji) przy użyciu inżynierii sieci, która otrzymała 18%.
Różne wyniki
Rodrigo Benenson był na tyle życzliwy, że zebrał wyniki na CIFAR-10/100 i różne zestawy danych na swojej stronie; kliknij tutaj, aby zobaczyć.
Projektowanie zbiorów danych
Wydania Pythona/Matlaba
Przedstawię projekt adaptacji Pythona zbioru danych. Projekt adaptacji Matlaba jest nie do odróżnienia.
Kronika zawiera dokumenty data_batch_1, data_batch_2, …, data_batch_5, tak samo jak test_batch. Każdy z tych dokumentów jest “wyleczonym” obiektem Pythona dostarczanym z cPickle’em. Oto procedura pythonowa2, która otworzy taki zapis i zwróci odniesienie do słowa “cPickle”:
def unpickle(plik):
import cPickle’a
z otwartym (plik, “rb”) jak fo:
dict = cPickle.load(fo)
dyktando powrotu
I wersja python3:
def unpickle(plik):
importować pikle
z otwartym (plik, “rb”) jak fo:
dict = pickle.load(fo, kodowanie=”bajty”)
dyktando powrotu
Ułożone wzdłuż tych linii, każdy z zapisów wiązki zawiera odniesienie słowne wraz z towarzyszącymi mu składnikami:
informacja – 10000×3072 zdrętwiały eksponat uint8s. W każdej linii klastra znajduje się zdjęcie cieniowania 32×32. Początkowe 1024 odcinki zawierają szacunek dla kanału czerwonego, kolejne 1024 – zielonego, a ostatnie 1024 – niebieskiego. Obraz jest odkładane w push znaczący wniosek, z celem, że początkowe 32 fragmenty eksponatu są szacunki kanału czerwonego szacunki głównej kolumny obrazu.
nazwy – 10000 numerów w zakresie 0-9. Numer z listy I pokazuje znak i-tego zdjęcia w informacji o wystawie.
Podwójna forma
Podwójny formularz zawiera dokumenty data_batch_1.bin, data_batch_2.bin, …, data_batch_5.bin, podobnie jak test_batch.bin. Każdy z tych dokumentów jest zaprojektowany jako pursues:
<1 x etykieta><3072 x piksel>
…
<1 x etykieta><3072 x piksel>
Na koniec dnia, głównym bajtem jest nazwa głównego obrazu, która jest liczbą z zakresu 0-9. Poniższe 3072 bajty to szacunki pikseli obrazu. Początkowe 1024 bajty to szacunki kanału czerwonego, kolejne 1024 to zielony, a ostatnie 1024 to niebieski. Właściwości te są odkładane na bok, więc początkowe 32 bajty są wartościami szacunkowymi kanału czerwonego dla głównej linii obrazu.
Każdy rekord zawiera 10000 takich 3073-bajtowych “linii” obrazów, mimo że nie ma nic, co by je ograniczało. W ten sposób każdy rekord powinien mieć faktycznie długość 30730000 bajtów.
Jest jeszcze jeden rekord, zwany batch.meta.txt. Jest to rekord ASCII, który mapuje znaki numeryczne w zakresie 0-9 do ważnych nazw klas. Jest to tylko podsumowanie 10 nazw klas, po jednej dla każdej linii. Nazwa klasy na pchnięciu I odnosi się do znaku numerycznego I.
Zbiór danych CIFAR-100
Ten zestaw danych jest taki sam jak CIFAR-10, z wyjątkiem 100 klas zawierających 600 zdjęć każda. Dla każdej klasy przygotowywanych jest 500 zdjęć i 100 zdjęć testowych. 100 klas w CIFAR-100 jest zgromadzonych w 20 superklasach. Każdemu zdjęciu towarzyszy znak “fine” (klasa, do której ma miejsce) oraz nazwa “coarse” (superklasa, do której ma miejsce).
Oto podsumowanie klas w CIFAR-100:
Klasy nadklasowe
ssaki płazów bóbr, delfin, wydra, foka, wieloryb
ryby akwariowe, płastugi, belki, rekiny, pstrągi
kwiaty orchidei, maki, róże, słoneczniki, tulipany
pojemniki na pożywienie butelki, miski, słoiki, kubki, talerze
produkty z ziemi, grzyby, pomarańcze, gruszki, słodka papryka
jednostka rodzinna zegar urządzeń elektrycznych, konsola PC, światło, telefon, telewizor
jednostka rodzinna łóżko meblowe, siedzenie, siedzenie miłosne, stół, szafa
owady pszczoła, skarabeusz, motyl, gąsienica, karaluch
ogromne mięsożerne niedźwiedzie, pantery, lwy, tygrysy, wilki
ogromne, zrobione przez człowieka rzeczy pod gołym niebem most, dworek, dom, ulica, wysoka góra
ogromne, regularne sceny plenerowe, chmury, lasy, góry, równiny, ocean.
ogromne wszystkożerne i roślinożerne wielbłądy, woły, szympansy, słonie, kangury
średnie ssaki lis, jeżozwierz, opos, szop, skunks
bezkręgowce bezgrzebieniowe bezgrzebieniowe bezgrzebieniowe, homary, ślimaki, pajęczaki, robaki
ludzie dziecko, dziecko, młoda dama, mężczyzna, dama
gady krokodyl, dinozaur, gad, wąż, żółw
małe ssaki chomik, mysz, zając, dziewczyna, wiewiórka
drzewa klon, dąb, palma, sosna, wierzba
pojazdy 1 rower, transport, krążownik, pickup truck, pociąg
pojazdy 2 kosiarek do trawy, rakieta, tramwaj, zbiornik, ciągnik