R-CNN

Aby odsunąć na bok kwestię wyboru niezliczonych obszarów, Ross Girshick i inni zaproponowali technikę, w której wykorzystujemy specyficzne dążenie do oddzielenia od obrazu tylko 2000 dzielnic i nazwał je zaleceniami lokalnymi. W ten sposób, obecnie, zamiast próbować scharakteryzować kolosalną liczbę dzielnic, można po prostu pracować z 2000 obszarami. Te 2000 propozycji lokalizacyjnych jest tworzonych z wykorzystaniem specyficznej kalkulacji pościgu, która jest skomponowana poniżej.

Wyszukiwanie selektywne:

1. Generowanie początkowej podsegmentacji, generujemy wiele kandydujących regionów

2. Użyj chciwego algorytmu do rekurencyjnego łączenia podobnych regionów w większe

https://miro.medium.com/max/889/1*REPHY47zAyzgbNKC6zlvBQ.png

3. Wykorzystanie wygenerowanych regionów do stworzenia ostatecznych propozycji regionów kandydujących

Te zalecenia dotyczące powierzchni 2000 w górę i na dół są zniekształcone w kwadrat i odżywiają się w nerwowy system falisty, który dostarcza 4096-wymiarowy wektor elementu jako wydajność. CNN idzie około jako element ekstraktor i wydajność gruba warstwa zawiera pasemka rozdzielone od obrazu i extricated pasemka utrzymuje w SVM charakteryzować bliskość przedmiot wewnątrz ten up-and-comer lokalna propozycja. Nie zważając na bliskość przedmiotu wewnątrz lokalnej propozycji, obliczenie podobnie przewiduje cztery cechy, które są przeciwwagą dla zbudowania ścisłości ramki ograniczającej. Na przykład, biorąc pod uwagę propozycję dzielnicy, obliczenia przewidywałyby bliskość jednostki, jednak istota tej jednostki wewnątrz propozycji dzielnicy mogłaby zostać skrócona w dół na środku. W ten sposób szacunki przeciwwagi pomagają zmienić skocznię w propozycji okręgu.

https://miro.medium.com/max/500/1*NX5yYTi-eQjP0pMWs3UbUg.png

Problemy z R-CNN

Bez względu na to, że wymaga to pewnych inwestycji w celu przygotowania systemu, jak trzeba by scharakteryzować 2000 rekomendacji obszarowych dla każdego obrazu.

System nie może być aktualizowany na bieżąco, ponieważ na każde zdjęcie testowe potrzeba około 47 sekund.

Konkretna kalkulacja polowania jest stałą kalkulacją. W ten sposób, na tym etapie nie dochodzi do nauki. To może spowodować wiek wstrętnych aplikujących zaleceń okręgowych.

Szybki R-CNN

https://miro.medium.com/max/842/1*0pMP3aY8blSpva5tvWbnKA.png

Podobny twórca poprzedniego artykułu (R-CNN) rozwikłał część minusów R-CNN, by skonstruować szybsze obliczenie odkrycia elementu i został nazwany Quick R-CNN. Metodologia ta jest podobna do obliczania R-CNN. Jednakże, zamiast wzmacniać propozycję obszaru do CNN, podajemy obraz informacyjny do CNN, by stworzyć mapę z konwolucją. Od mapy konwolucyjnej include, rozróżniamy dzielnice rekomendacji i przekręcamy je w kwadraty, a poprzez wykorzystanie warstwy łączenia kapitału początkowego przekształcamy je w stałą wielkość, tak aby można je było zachęcić do tworzenia warstwy całkowicie powiązanej. Od zwrotu z zainwestowanych pieniędzy zawieramy wektor, wykorzystujemy warstwę softmax do przewidywania klasy proponowanej dzielnicy, a ponadto, przeciwwagę szacunku dla pudełka skokowego.

Wyjaśnienie “Szybkie R-CNN” jest szybsze niż “Szybkie R-CNN”, ponieważ nie ma potrzeby bezbłędnie wzmacniać propozycji obszaru 2000 do nerwowego systemu konwulsyjnego. Raczej czynność skręcania jest wykonywana tylko raz na obrazie i z niego tworzona jest mapa składowa.

https://miro.medium.com/max/1647/1*m2QO_wbUPA05mY2q4v7mjg.png

Z powyższych wykresów można wywnioskować, że Quick R-CNN jest zasadniczo szybszy w przygotowaniu i testowaniu sesji nad R-CNN. W momencie, gdy w czasie trwania testów na wystawie Quick R-CNN zabierasz się za wędrówkę, włączając w to propozycje rejonów, utrudnia to zasadniczo obliczenia, w przeciwieństwie do niestosowania zaleceń rejonowych. Wzdłuż tych linii, propozycja obszaru staje się wąskim gardłem w obliczeniach Quick R-CNN wpływającym na jego ekspozycję.

Szybszy R-CNN

https://miro.medium.com/max/873/1*pSnVmJCyQIRKHDPt3cfnXA.png

Oba powyższe algorytmy (R-CNN i Quick R-CNN) używają konkretnego wyszukiwania w celu odkrycia propozycji lokalizacji. Konkretne wyszukiwanie jest powolną i żmudną procedurą wpływającą na prezentację systemu. Dlatego też Shaoqing Ren i inni pomyśleli o obliczeniu lokalizacji artykułu, który dysponuje specyficznym obliczeniem polowania i daje systemowi szansę na zapoznanie się z propozycją lokalną.

Podobnie jak Quick R-CNN, obrazek jest podany jako wkład do organizacji konwolucyjnej, która daje konwolucyjną mapę wyróżniającą. Zamiast korzystać z konkretnych obliczeń zapytań w przewodniku po elementach w celu rozróżnienia zaleceń dotyczących obszaru, stosuje się inny system w celu przewidzenia propozycji lokalizacji. Przewidywana propozycja lokalizacyjna jest następnie przekształcana z wykorzystaniem warstwy zbiorczej, która zapewnia zwrot z zainwestowanych pieniędzy, a następnie jest wykorzystywana do uporządkowania obrazu wewnątrz proponowanego obszaru i przewidywania szacunków bilansowych dla pól ogranicznikowych.

https://miro.medium.com/max/1141/1*4gGddZpKeNIPBoVxYECd5w.png

Z powyższego wykresu widać, że Faster R-CNN jest znacznie szybszy niż jego poprzednicy. Dlatego można go używać nawet do wykrywania obiektów w czasie rzeczywistym.

YOLO – You Only Look Once

Całość dotychczasowych obliczeń identyfikacji artykułu wykorzystuje obszary, które ograniczają element wewnątrz obrazu. System nie wykonuje żadnej wędrówki na całym zdjęciu. Raczej części obrazu, które mają duże prawdopodobieństwo, że zawierają przedmiot. YOLO lub You Just Look Once jest obliczeniem rozpoznawania elementu całkowicie różniącym się od poprzednio widzianych obliczeń opartych na okręgach. W YOLO samotny konwulsyjny organizacja przewidywać the ograniczenie pudełko i klasowy prawdopodobieństwo dla te pojemnik.

Jak funkcjonuje YOLO jest to, że robimy zdjęcie i podzielić go na kratę SxS, wewnątrz każdej z sieci, które bierzemy m skakanki. Dla każdego ze skakanek system daje klasę prawdopodobieństwa i przeciwwagę dla szacunku dla pudełka ograniczającego. Skrzynki ograniczające, które mają klasę prawdopodobieństwa nad oceną krawędzi, są wybierane i używane do znalezienia elementu wewnątrz obrazu.

YOLO jest żądaniem o wiele szybszym (45 zarysów co sekundę) niż inne obliczenia identyfikacji artykułu. Ograniczeniem obliczeń YOLO jest to, że walczy ona z małymi artykułami wewnątrz obrazu, na przykład, może doświadczyć problemów w odróżnieniu grupy upierzonych stworzeń. Wynika to z ograniczeń przestrzennych obliczeń.