Die Leistung der Objekterkennung, gemessen am kanonischen PASCAL VOC-Datensatz, hat sich in den letzten Jahren verschlechtert. Die leistungsfähigsten Methoden sind komplexe Ensemblesysteme, die typischerweise mehrere Low-Level-Bildmerkmale mit High-Level-Kontext kombinieren. In diesem Aufsatz schlagen wir einen einfachen und skalierbaren Detektionsalgorithmus vor, der die mittlere mittlere mittlere Präzision (mAP) im Vergleich zum bisher besten Ergebnis bei VOC 2012 um ziemlich 30% verbessert – wobei eine mAP von 53,3% erreicht wird. Unser Ansatz kombiniert zwei Schlüsselerkenntnisse: (1) man kann hochkapazitive konvolutionelle neuronale Netze (CNNs) auf Bottom-up-Regionsvorschläge anwenden, um Objekte zu lokalisieren und zu segmentieren, und (2) wenn markierte Trainingsdaten knapp sind, führt ein überwachtes Vor-Training für eine Hilfsaufgabe, gefolgt von einer domänenspezifischen Feinabstimmung, zu einem großen Leistungsschub. Da wir Regionsvorschläge mit CNNs kombinieren, nennen wir unsere Methode R-CNN: Regionen mit CNN-Merkmalen. Wir vergleichen R-CNN auch mit OverFeat, einem kürzlich vorgeschlagenen Schiebefenster-Detektor, der eine identische CNN-Architektur unterstützt. Wir stellen fest, dass R-CNN OverFeat auf dem ILSVRC2013-Detektionsdatensatz der Klasse 200 um eine überdimensionierte Marge übertrifft. Eine ASCII-Textdatei für das gesamte System ist unter dieser http-URL verfügbar.