De uitvoering van de itemherkenning, zoals geschat op de aanvaarde PASCAL VOC-dataset, is in de afgelopen jaren geëgaliseerd. De best presterende strategieën zijn onvoorspelbare uitrustingsframes die gewoonlijk verschillende low-level beeldpunten consolideren met een significante niveau-instelling. In dit document stellen we een eenvoudige en veelzijdige ontdekkingsberekening voor die de gemiddelde normale nauwkeurigheid (Guide) met meer dan 30% verbetert ten opzichte van het beste resultaat in het verleden op VOC 2012 – het bereiken van een Guide van 53,3%. Onze methodologie consolideert twee belangrijke ervaringen: (1) men kan hoge-limiet convolutionele neurale systemen (CNN’s) toepassen om district propositie te baseren om items te beperken en te versnipperen en (2) wanneer gemarkeerde het voorbereiden van informatie zeldzaam is, gereguleerde pre-preparing voor een helper taak, getraceerd door gebied expliciet te kalibreren, levert een opmerkelijke tentoonstelling ondersteuning. Aangezien wij ons samen met CNN’s bij de districtspropositie aansluiten, noemen wij onze strategie R-CNN: Locales met CNN-highlights. Daarnaast contrasteren we R-CNN met OverFeat, een sinds kort voorgestelde schuifraamvinder die afhankelijk is van een vergelijkbare CNN-techniek. We vinden dat R-CNN verslaat