Le prestazioni di rilevamento degli oggetti, misurate sul set di dati canonici PASCAL VOC, sono aumentate negli ultimi due anni. I metodi con le migliori prestazioni sono sistemi complessi di insieme che tipicamente combinano molteplici caratteristiche di immagine di basso livello con il contesto di alto livello. Nel corso di questo lavoro, proponiamo un algoritmo di rilevazione semplice e scalabile che migliora la precisione media media (mAP) di circa il 30% rispetto al precedente miglior risultato su VOC 2012 – raggiungendo una mAP del 53,3%. Il nostro approccio combina due punti di vista fondamentali: (1) si possono applicare reti neurali convoluzionali ad alta capacità (CNN) alle proposte di regione dal basso verso l’alto in modo da localizzare e segmentare gli oggetti e (2) quando i dati di formazione etichettati sono scarsi, la pre-formazione supervisionata per un compito ausiliario, seguita da una messa a punto specifica del dominio, produce un grande incremento delle prestazioni. Poiché combiniamo le proposte regionali con le CNN, chiamiamo il nostro metodo R-CNNN: Regioni con caratteristiche CNN. Confrontiamo anche R-CNNN con OverFeat, un rivelatore a finestra scorrevole proposto di recente ha supportato un’architettura CNN identica. Scopriamo che R-CNNN supera OverFeat di un margine sovradimensionato sul set di dati di rilevamento ILSVRC2013 di 200 classi. Il file di testo ASCII per l’intero sistema è disponibile a questo URL http.