R-CNN

Pour contourner la question du choix d’innombrables zones, Ross Girshick et al. ont proposé une technique où nous utilisons une poursuite spécifique pour séparer seulement 2000 districts du tableau et il les a appelés des recommandations locales. De cette manière, à l’heure actuelle, plutôt que de tenter de caractériser un nombre colossal de districts, on peut simplement travailler avec 2000 zones. Ces 2000 propositions locales sont produites en utilisant le calcul de poursuite particulière qui est composé ci-dessous.

Recherche sélective :

1. Générer une sous-segmentation initiale, nous générons de nombreuses régions candidates

2. Utiliser l’algorithme de l’avidité pour combiner récursivement des régions similaires en régions plus grandes

3. Utiliser les régions générées pour produire les propositions finales de régions candidates

Ces recommandations de 2000 sur les zones émergentes sont déformées en un carré et nourries par un système neuronal convolutionnel qui fournit un vecteur d’éléments à 4096 dimensions comme rendement. Le CNN se comporte comme un extracteur de composants et la couche épaisse de rendement comprend les hautes lumières séparées de l’image et les hautes lumières extrudées sont soutenues dans un SVM pour caractériser la proximité de l’élément à l’intérieur de cette proposition de zone montante. Même si l’on prévoit la proximité d’un élément dans la proposition de zone, le calcul prévoit également quatre qualités qui sont des qualités contrebalancées pour construire l’exactitude de la boîte de délimitation. Par exemple, dans le cas d’une proposition de zone, le calcul aurait prévu la proximité d’un individu, mais l’essence de cet individu dans cette proposition de zone aurait pu être coupée en deux. De cette manière, les estimations de contrepartie aident à modifier la zone de saut de la proposition de district.

Problèmes avec R-CNN

Quoi qu’il en soit, la préparation du système nécessite un certain investissement, car il faudrait caractériser 2000 recommandations de zones pour chaque image.

Il ne peut pas être actualisé en continu car il faut environ 47 secondes pour chaque image de test.

Le calcul de la chasse spécifique est un calcul fixe. Ainsi, aucun apprentissage n’a lieu à ce stade. Cela pourrait entraîner l’apparition de recommandations de districts demandeurs affreuses.

R-CNN rapide

Un créateur similaire de l’ancien article (R-CNN) a démêlé une partie des inconvénients de R-CNN pour construire un calcul de découverte d’objet plus rapide et il a été appelé Quick R-CNN. La méthodologie est similaire à celle du calcul R-CNN. Cependant, plutôt que de renforcer la proposition de zone à CNN, nous transmettons l’image de l’information à CNN pour produire une carte convolutionnelle d’inclusion. En utilisant une couche de mise en commun du retour sur investissement initial, nous les remodelons en une taille fixe dans le but de les encourager à devenir une couche complètement associée. À partir du retour sur l’investissement initial, nous utilisons une couche softmax pour anticiper la classe du district proposé et, de plus, les estimations de contrepartie pour la boîte de saut.

L’explication “Quick R-CNN” est plus rapide que R-CNN, car il n’est pas nécessaire de renforcer sans faille la proposition de zone 2000 au système neuronal convolutif. Au contraire, l’activité de convolution n’est effectuée qu’une fois par image et une carte des composants est créée à partir de celle-ci.

Les diagrammes ci-dessus vous permettent de déduire que Quick R-CNN est essentiellement plus rapide pour préparer et tester les sessions par R-CNN. Au moment où vous jetez un coup d’œil à l’exposition de Quick R-CNN pendant la période de test, l’inclusion de la proposition de district entrave fondamentalement le calcul lorsqu’on la compare à la non-utilisation des recommandations de zone. De ce fait, la proposition de zone devient un goulot d’étranglement dans le calcul de Quick R-CNN, ce qui influence son exposition.

R-CNN plus rapide

Les deux algorithmes ci-dessus (R-CNN et Quick R-CNN) utilisent une recherche particulière pour découvrir la proposition de locale. La recherche particulière est une procédure lente et fastidieuse qui influence la présentation du système. Ainsi, Shaoqing Ren et al. ont pensé à un calcul de localisation d’article qui dispose du calcul de chasse spécifique et donne au système une chance de se familiariser avec la proposition de quartier.

Comme Quick R-CNN, l’image est donnée comme une contribution à une organisation convolutionnelle qui donne une carte des points forts convolutionnels. Plutôt que d’utiliser un calcul d’enquête spécifique sur le guide des éléments pour distinguer les recommandations de zone, un système différent est utilisé pour prévoir la proposition locale. La proposition de zone anticipée est alors remodelée en utilisant une couche de mise en commun du retour sur investissement qui est ensuite utilisée pour organiser l’image à l’intérieur de la zone proposée et prévoir les estimations d’équilibre pour les cases de délimitation.

Sur le graphique ci-dessus, vous pouvez voir que le R-CNN est beaucoup plus rapide que ses prédécesseurs. Par conséquent, il peut même être utilisé pour la détection d’objets en temps réel.

YOLO – On ne regarde qu’une fois

L’ensemble des calculs d’identification des articles passés utilisent des zones pour restreindre l’article à l’intérieur de l’image. Le système ne jette pas un coup d’œil à l’ensemble de la photo. Il s’agit plutôt de parties de l’image qui ont de fortes chances de contenir l’article. YOLO ou You Just Look Once est un calcul de reconnaissance d’article entièrement différent des calculs basés sur les districts vus précédemment. Dans YOLO, une organisation convolutionnelle solitaire prédit les boîtes de délimitation et les probabilités de classe pour ces conteneurs.

Le fonctionnement de YOLO est le suivant : nous prenons une photo et la divisons en un réseau SxS, à l’intérieur de chacun des réseaux, nous prenons m jumping boxes. Pour chacune des boîtes de saut, le système produit une probabilité de classe et contrebalance les estimations pour la boîte de délimitation. Les boîtes de délimitation ayant la probabilité de classe au-dessus de l’estime de bord sont choisies et utilisées pour trouver l’élément à l’intérieur de l’image.

YOLO est une demande d’étendue plus rapide (45 contours par seconde) que les autres calculs d’identification d’articles. La contrainte du calcul YOLO est qu’il se bat avec de petits articles à l’intérieur de l’image, par exemple, il peut rencontrer des problèmes pour distinguer un groupe de créatures à plumes. Cela est dû aux limites spatiales du calcul.