O desempenho da detecção de objectos, medido no conjunto de dados PASCAL VOC canónico, atingiu um patamar nos dois anos anteriores. Os métodos com melhor desempenho são sistemas complexos que tipicamente combinam múltiplas características de imagem de baixo nível com contexto de alto nível. Durante este artigo, propomos um algoritmo de detecção fácil e escalável que melhora a precisão média média (mAP) em cerca de 30% em relação ao melhor resultado anterior em COV 2012 – alcançando um mAP de 53,3%. A nossa abordagem combina duas perspectivas fundamentais: (1) é possível aplicar redes neurais convolutivas de alta capacidade (CNN) a propostas de região ascendente de modo a localizar e segmentar objectos e (2) quando os dados de formação rotulados são escassos, a pré-formação supervisionada para uma tarefa auxiliar, seguida de afinação de domínios específicos, produz um grande aumento de desempenho. Como combinamos propostas de região com CNNs, chamamos ao nosso método R-CNN: Regiões com características CNN. Também comparamos o R-CNN com o OverFeat, um detector de janelas deslizantes recentemente proposto, que suportava uma arquitectura CNN idêntica. Descobrimos que o R-CNN supera o OverFeat por uma margem de sobrefator no conjunto de dados de detecção ILSVRC2013 de 200 classes. O ficheiro de texto ASCII para todo o sistema está disponível neste URL http.