Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Skuteczność wykrywania obiektów, mierzona w kanonicznym zbiorze danych PASCAL VOC, uległa poprawie w ciągu ostatnich kilku lat. Najlepiej sprawdzającymi się metodami są złożone systemy zespołowe, które zazwyczaj łączą w sobie wiele niskopoziomowych cech obrazu z kontekstem wysokiego poziomu. W niniejszym artykule proponujemy łatwy i skalowalny algorytm wykrywania, który poprawia średnią średnią precyzję (mAP) o 30% w stosunku do poprzedniego najlepszego wyniku na VOC 2012 – osiągając mAP na poziomie 53,3%. Nasze podejście łączy w sobie dwa kluczowe spostrzeżenia: (1) można zastosować wysokowydajne konwolucyjne sieci neuronowe (CNN) w propozycjach regionów oddolnych, aby zlokalizować i podzielić na segmenty obiekty oraz (2) gdy dane szkoleniowe opatrzone etykietą są niewystarczające, nadzorowane szkolenie wstępne do zadania pomocniczego, a następnie dostrajanie specyficzne dla danej domeny, daje duży wzrost wydajności. Ponieważ łączymy propozycje regionalne z CNN, nazywamy naszą metodę R-CNN: Regiony z cechami CNN. Porównujemy również metodę R-CNN z OverFeat, niedawno zaproponowaną czujkę okien przesuwnych, która obsługuje identyczną architekturę CNN. Odkryliśmy, że R-CNN przewyższa OverFeat o ponadnormatywny margines w zestawie danych detekcji ILSVRC2013 klasy 200. Plik tekstowy ASCII dla całego systemu znajduje się pod tym adresem URL http.