Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Skuteczność wykrywania obiektów, mierzona w kanonicznym zbiorze danych PASCAL VOC, uległa poprawie w ciągu ostatnich kilku lat. Najlepiej sprawdzającymi się metodami są złożone systemy zespołowe, które zazwyczaj łączą w sobie wiele niskopoziomowych cech obrazu z kontekstem wysokiego poziomu. W niniejszym artykule proponujemy łatwy i skalowalny algorytm wykrywania, który poprawia średnią średnią precyzję (mAP) o 30% w stosunku do poprzedniego najlepszego wyniku na VOC 2012 – osiągając mAP na poziomie 53,3%. Nasze podejście łączy w sobie dwa kluczowe spostrzeżenia: (1) można zastosować wysokowydajne konwolucyjne sieci neuronowe (CNN) w propozycjach regionów oddolnych, aby zlokalizować i podzielić na segmenty obiekty oraz (2) gdy dane szkoleniowe opatrzone etykietą są niewystarczające, nadzorowane szkolenie wstępne do zadania pomocniczego, a następnie dostrajanie specyficzne dla danej domeny, daje duży wzrost wydajności. Ponieważ łączymy propozycje regionalne z CNN, nazywamy naszą metodę R-CNN: Regiony z cechami CNN. Porównujemy również metodę R-CNN z OverFeat, niedawno zaproponowaną czujkę okien przesuwnych, która obsługuje identyczną architekturę CNN. Odkryliśmy, że R-CNN przewyższa OverFeat o ponadnormatywny margines w zestawie danych detekcji ILSVRC2013 klasy 200. Plik tekstowy ASCII dla całego systemu znajduje się pod tym adresem URL http.

Języki

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.