R-CNN

Om de kwestie van het kiezen van talloze gebieden te omzeilen, stelden Ross Girshick et al. een techniek voor waarbij we gebruik maken van een specifieke achtervolging om slechts 2000 districten van het beeld te scheiden en hij noemde ze lokale aanbevelingen. Op deze manier kun je nu, in plaats van te proberen een kolossaal aantal districten te karakteriseren, gewoon met 2000 gebieden werken. Deze 2000 locale stellingen worden geproduceerd met behulp van de specifieke achtervolgingsberekening die hieronder is samengesteld.

Selectief zoeken:

1. Genereer een eerste sub-segmentatie, we genereren veel kandidaat-regio’s

2. 2. Gebruik een gulzig algoritme om soortgelijke gebieden recursief te combineren tot grotere gebieden

https://miro.medium.com/max/889/1*REPHY47zAyzgbNKC6zlvBQ.png

3. 3. Gebruik de gegenereerde regio’s om de definitieve voorstellen voor de kandidaat-regio’s te produceren

Deze 2000 aanbevelingen voor het gebied van de opgaande lijn worden vervormd tot een vierkant en gevoed tot een convolutioneel neuraal systeem dat een 4096-dimensionale elementvector als opbrengst levert. De CNN gaat over als een component extractor en de opbrengst dikke laag bestaat uit de hoogtepunten gescheiden van het beeld en de geëxtraheerde hoogtepunten worden ondersteund in een SVM om de nabijheid van het item in die up-and-comer locale propositie te karakteriseren. Niettegenstaande het feit dat de nabijheid van een item binnen de district propositie wordt voorzien, voorspelt de berekening ook vier kwaliteiten die tegengestelde kwaliteiten zijn om de exactheid van de begrenzingsdoos te bouwen. Bijvoorbeeld, gezien een districtspropositie, zou de berekening de nabijheid van een individu hebben voorzien, maar de essentie van dat individu binnen die gebiedspropositie zou in het midden hebben kunnen worden gesneden. Op deze manier helpen de tegenwichten bij het veranderen van de sprongbak van de wijkstelling.

https://miro.medium.com/max/500/1*NX5yYTi-eQjP0pMWs3UbUg.png

Problemen met R-CNN

Ongeacht het feit dat het enige investering vereist om het systeem voor te bereiden, want je zou 2000 gebiedsaanbevelingen moeten karakteriseren voor elke foto.

Het kan niet worden geactualiseerd lopende als het duurt ongeveer 47 seconden voor elke test foto.

De specifieke jachtberekening is een vaste berekening. Op deze manier wordt er in dat stadium niet geleerd. Dit kan leiden tot de leeftijd van de vreselijke aanbevelingen van de kandidaat-districten.

Snelle R-CNN

https://miro.medium.com/max/842/1*0pMP3aY8blSpva5tvWbnKA.png

Een vergelijkbare maker van het vroegere papier (R-CNN) ontrafelde een deel van de nadelen van R-CNNN om een snellere item discovery berekening te construeren en het werd Quick R-CNNN genoemd. De methode is als de R-CNNN berekening. Echter, in plaats van de gebiedspropositie te versterken naar CNN, voeden we het informatiebeeld naar CNN om een convolutionele insluitingskaart te produceren. Van de convolutionele include kaart onderscheiden we het district van de aanbevelingen en draaien we ze in vierkanten en door gebruik te maken van een return on initial capital investment pooling laag vormen we ze om tot een vaste grootte met als doel dat het heel goed kan worden aangemoedigd in een volledig geassocieerde laag. Van het rendement op geïnvesteerde geld omvatten vector, gebruiken we een softmax-laag om te anticiperen op de klasse van de voorgestelde wijk en bovendien het tegenwicht voor de springkast.

De verklaring “Quick R-CNN” is sneller dan R-CNNN is op grond van het feit dat je niet hoeft te versterken 2000 gebied propositie om de convolutionele neurale systeem feilloos. In plaats daarvan wordt de convolutieactiviteit slechts één keer per plaatje uitgevoerd en wordt er een componentenkaart van gemaakt.

https://miro.medium.com/max/1647/1*m2QO_wbUPA05mY2q4v7mjg.png

Uit bovenstaande schema’s kunt u afleiden dat Quick R-CNN in wezen sneller is in het voorbereiden en testen van sessies over R-CNN. Op het moment dat u tijdens de testtijd naar de tentoonstelling van Quick R-CNNN kijkt, belemmert een districtspropositie de berekening fundamenteel wanneer deze wordt afgezet tegen niet-benutte gebiedsaanbevelingen. In die zin wordt de gebiedspropositie een knelpunt in de Quick R-CNN-berekening die van invloed is op de tentoonstelling.

Snellere R-CNN

https://miro.medium.com/max/873/1*pSnVmJCyQIRKHDPt3cfnXA.png

Beide bovenstaande algoritmen (R-CNN en Quick R-CNNN) maken gebruik van een bepaalde zoekopdracht om de locale propositie te ontdekken. Het zoeken is een langzame en vervelende procedure die de presentatie van het systeem beïnvloedt. Zo hebben Shaoqing Ren et al. gedacht aan een artikel locatieberekening die beschikt over de specifieke jachtberekening en het systeem een kans geeft om vertrouwd te raken met de districtspropositie.

Net als bij Quick R-CNN wordt het beeld gegeven als bijdrage aan een convolutionele organisatie die een convolutionele belichtingskaart geeft. In plaats van het gebruik van een specifieke zoekberekening op de elementgids om de gebiedsaanbevelingen te onderscheiden, wordt een ander systeem gebruikt om de locale stelling te voorzien. De geanticipeerde districtspropositie wordt vervolgens in een nieuwe vorm gegoten door gebruik te maken van een return for money pooling laag die vervolgens wordt gebruikt om het beeld binnen het voorgestelde gebied te ordenen en de balans te voorzien voor de begrenzingsdozen.

https://miro.medium.com/max/1141/1*4gGddZpKeNIPBoVxYECd5w.png

Uit bovenstaande grafiek kunt u zien dat Faster R-CNN veel sneller is dan zijn voorgangers. Daarom kan het zelfs worden gebruikt voor real-time objectdetectie.

YOLO – Je ziet er maar één keer uit

Het geheel van de vroegere artikelidentificatieberekeningen maakt gebruik van gebieden om het artikel in de afbeelding te beperken. Het systeem kijkt niet naar de totale foto. Eerder, delen van de foto die een hoge waarschijnlijkheid hebben om het artikel te bevatten. YOLO of You Just Look Once is een artikelherkenningsberekening die heel anders is dan de eerder geziene districtsberekeningen. In YOLO voorspelt een eenzame convolutionele organisatie de begrenzende vakken en de klassenkansen voor deze vakken.

Hoe YOLO functioneert is dat we een foto maken en deze opsplitsen in een SxS rooster, binnen elk van de netwerken die we nemen m jumping-boxen. Voor elk van de springbakken geeft het systeem een klasse waarschijnlijkheid en een tegenwicht voor de waardering van de springbak. De springbakken met de klasse waarschijnlijkheid over de randwaarde worden gekozen en gebruikt om het item in de afbeelding te vinden.

YOLO is verzoeken van omvang sneller (45 schetst elke seconde) dan andere artikelidentificatieberekeningen. De beperking van de YOLO-berekening is dat het gevecht met kleine artikelen in de afbeelding, bijvoorbeeld, het kan problemen ondervinden bij het onderscheiden van een groep van gevederde wezens. Dit komt door de ruimtelijke beperkingen van de berekening.