Les performances de détection d’objets, telles que mesurées sur l’ensemble de données canoniques PASCAL VOC, ont plafonné au cours des deux dernières années. Les méthodes les plus performantes sont les systèmes d’ensemble complexes qui combinent généralement plusieurs caractéristiques d’images de bas niveau avec un contexte de haut niveau. Dans cet article, nous proposons un algorithme de détection facile et évolutif qui améliore la précision moyenne (mAP) de 30 % par rapport au meilleur résultat précédent sur les COV 2012, soit une mAP de 53,3 %. Notre approche combine deux idées clés : (1) on peut appliquer des réseaux neuronaux convolutionnels (CNN) de grande capacité à des propositions de régions ascendantes de manière à localiser et à segmenter des objets et (2) lorsque les données d’entraînement étiquetées sont rares, une préformation supervisée pour une tâche auxiliaire, suivie d’un réglage fin spécifique au domaine, permet d’accroître considérablement les performances. Comme nous combinons les propositions de régions avec les CNN, nous appelons notre méthode R-CNN : Régions avec caractéristiques CNN. Nous comparons également R-CNN à OverFeat, un détecteur à fenêtre coulissante récemment proposé qui prend en charge une architecture CNN identique. Nous découvrons que R-CNN surpasse OverFeat par une marge énorme sur l’ensemble de données de détection ILSVRC2013 de classe 200. Le fichier texte ASCII pour l’ensemble du système est disponible à cette adresse http.