Эффективность обнаружения объектов, измеренная на каноническом наборе данных PASCAL VOC, стабилизировалась в течение последних нескольких лет. Наиболее эффективными методами являются сложные ансамблевые системы, которые обычно сочетают в себе несколько низкоуровневых функций изображения с высокоуровневым контекстом. В этой статье мы предлагаем простой и масштабируемый алгоритм обнаружения, который улучшает среднюю точность (mAP) на 30% по сравнению с предыдущим лучшим результатом на VOC 2012 – достижением mAP в 53,3%. Наш подход сочетает в себе два ключевых момента: (1) можно применять высокопроизводительные конволюционные нейронные сети (CNN) к предложениям по регионам снизу вверх, чтобы локализовать и сегментировать объекты, и (2) при недостатке помеченных обучающих данных, предварительная подготовка к вспомогательной задаче с последующей точной настройкой для конкретного домена, дает большой прирост производительности. Так как мы объединяем предложения по регионам с CNN, мы называем наш метод R-CNN: Регионы с особенностями CNN. Мы также сравниваем R-CNN с OverFeat, недавно предложенным детектором на основе скользящего окна, поддерживающим идентичную архитектуру CNN. Мы обнаружили, что R-CNN превосходит OverFeat по сравнению с 200-классным набором данных обнаружения ILSVRC2013. Текстовый файл ASCII для всей системы находится на этом http URL.