R-CNN

Um dem Problem der Auswahl zahlloser Gebiete auszuweichen, schlugen Ross Girshick et al. eine Technik vor, bei der wir durch gezielte Verfolgung nur 2000 Distrikte aus dem Bild herauslösen, und er nannte sie Ortsempfehlungen. Auf diese Weise kann man gegenwärtig, anstatt zu versuchen, eine kolossale Anzahl von Distrikten zu charakterisieren, einfach mit 2000 Gebieten arbeiten. Diese 2000 Gebietsempfehlungen werden unter Verwendung der speziellen Verfolgungsberechnung erstellt, die unten zusammengestellt ist.

Selektive Suche:

1. Generierung einer ersten Untersegmentierung, wir generieren viele Kandidatenregionen

2. Gierigen Algorithmus verwenden, um ähnliche Regionen rekursiv zu größeren zu kombinieren

3. Verwenden Sie die generierten Regionen, um die endgültigen Vorschläge für Kandidatenregionen zu erstellen.

Diese 2000 aufstrebenden Gebietsempfehlungen werden zu einem Quadrat verzerrt und in ein konvolutionäres neuronales System genährt, das einen 4096-dimensionalen Elementvektor als Ausbeute liefert. Der CNN geht als Komponentenextraktor um, und die dicke Schicht der Ausbeute besteht aus den vom Bild getrennten Glanzlichtern, und die herausgelösten Glanzlichter werden in einer SVM aufrechterhalten, um die Nähe des Elements innerhalb dieses aufstrebenden Gebietsvorschlags zu charakterisieren. Ungeachtet der Vorhersage der Nähe eines Gegenstandes innerhalb des Gebietsvorschlags sagt die Berechnung ebenfalls vier Qualitäten voraus, die ein Gegengewicht zu den Qualitäten darstellen, die die Genauigkeit der Bounding Box ausmachen. Zum Beispiel hätte die Berechnung bei einem Gebietsvorschlag die Nähe eines Individuums vorausgesagt, doch das Wesen dieses Individuums innerhalb des Gebietsvorschlags hätte in der Mitte durchgeschnitten werden können. Auf diese Weise helfen die Gegengewichtsbewertungen bei der Änderung des Sprungkastens des Gebietsvorschlags.

Probleme mit R-CNN

Unabhängig davon erfordert es einige Investitionen zur Vorbereitung des Systems, da Sie für jedes Bild 2000 Gebietsempfehlungen charakterisieren müssten.

Sie kann nicht fortlaufend aktualisiert werden, da sie für jedes Testbild etwa 47 Sekunden dauert.

Die spezifische Jagdberechnung ist eine feste Berechnung. Auf diese Weise findet in diesem Stadium kein Lernen statt. Dies könnte das Alter der schrecklichen Bewerberdistriktempfehlungen auslösen.

Schnelles R-CNN

Ein ähnlicher Verfasser des früheren Papiers (R-CNN) entwirrte einen Teil der Nachteile von R-CNN, um eine schnellere Berechnung der Item Discovery zu konstruieren, und es wurde Quick R-CNN genannt. Die Methodik ist wie die R-CNN-Berechnung. Anstatt jedoch den Gebietsvorschlag an CNN zu untermauern, speisen wir das Informationsbild an CNN ein, um eine Faltungseinschlusskarte zu erstellen. Von der gefalteten Include-Karte unterscheiden wir das Gebiet der Empfehlungen und verdrehen sie in Quadrate, und indem wir eine Schicht zur Bündelung der anfänglichen Investitionsrendite verwenden, formen wir sie zu einer festen Größe um, mit dem Ziel, dass sie sehr wohl zu einer vollständig assoziierten Schicht ermutigt werden kann. Von der Rendite für das investierte Geld enthalten Vektor, verwenden wir eine Softmax-Schicht, um die Klasse des vorgeschlagenen Distrikts zu antizipieren und darüber hinaus, das Gegengewicht Wertschätzungen für die Jumping-Box.

Die Erklärung “Schneller R-CNN” ist schneller als R-CNN mit der Begründung, dass man den 2000-Flächenvorschlag nicht unfehlbar dem konvolutionären neuronalen System untermauern muss. Vielmehr wird die Faltungsaktivität nur einmal pro Bild durchgeführt und daraus eine Komponentenkarte erstellt.

Aus den obigen Diagrammen können Sie ableiten, dass Quick R-CNN wesentlich schneller bei der Vorbereitung und Prüfung von Sitzungen über R-CNN ist. An dem Punkt, an dem Sie während der Testzeit einen Blick auf die Ausstellung von Quick R-CNN werfen, behindert der Vorschlag des Distrikts die Berechnung grundlegend, wenn man ihn mit der Nichtnutzung von Gebietsempfehlungen kontrastiert. In diesem Sinne wird der Gebietsvorschlag zu einem Engpass bei der Berechnung von Quick R-CNN, der seine Ausstellung beeinflusst.

Schneller R-CNN

Beide der oben genannten Algorithmen (R-CNN und Quick R-CNN) verwenden eine bestimmte Suche, um den Gebietsschemasatz zu ermitteln. Die spezielle Suche ist ein langsames und mühsames Verfahren, das die Präsentation des Systems beeinflusst. So dachten Shaoqing Ren et al. an eine Artikelstandortberechnung, die über die spezifische Jagdberechnung verfügt und dem System die Chance gibt, sich mit dem Gebietsvorschlag vertraut zu machen.

Wie Quick R-CNN wird das Bild als Beitrag zu einer konvolutionären Organisation gegeben, die eine konvolutionäre Highlight-Karte liefert. Anstatt eine spezifische Anfrageberechnung auf dem Elementführer zur Unterscheidung der Gebietsempfehlungen zu verwenden, wird ein anderes System zur Vorhersage des Gebietsvorschlags verwendet. Der erwartete Gebietsvorschlag wird dann unter Verwendung einer für das investierte Geld zurückerhaltenden Pooling-Schicht umgestaltet, die dann dazu verwendet wird, das Bild innerhalb des vorgeschlagenen Gebiets zu arrangieren und die Gleichgewichtsbewertungen für die Begrenzungskästen vorauszusehen.

Aus der obigen Grafik können Sie ersehen, dass Faster R-CNN viel schneller ist als seine Vorgänger. Daher kann es sogar zur Echtzeit-Objekterkennung verwendet werden.

YOLO – Man schaut nur einmal hin

Die Gesamtheit der in der Vergangenheit durchgeführten Berechnungen zur Identifizierung von Artikeln verwendet Bereiche, um den Artikel innerhalb des Bildes einzuschränken. Das System wirft keinen Blick auf das Gesamtbild. Vielmehr werden Teile des Bildes betrachtet, die mit hoher Wahrscheinlichkeit den Artikel enthalten. Bei YOLO oder You Just Look Once handelt es sich um eine Artikelerkennungsberechnung, die sich völlig von den bisherigen Bezirksberechnungen unterscheidet. In YOLO sagt eine einsame Faltungsorganisation die Begrenzungskästen und die Klassenwahrscheinlichkeiten für diese Behälter voraus.

Die Funktionsweise von YOLO besteht darin, dass wir ein Bild aufnehmen und es in ein SxS-Gitter aufteilen, wobei wir in jedem der Netzwerke m Sprungkästen nehmen. Für jeden der Sprungkästen ergibt das System eine Klassenwahrscheinlichkeit und Gegengewichtsbewertungen für den Begrenzungskasten. Die Bounding Boxen mit der Klassenwahrscheinlichkeit über der Randeinschätzung werden ausgewählt und verwendet, um den Gegenstand innerhalb des Bildes zu finden.

YOLO ist Anfragen zum Umfang schneller (45 Umrisse pro Sekunde) als andere Berechnungen zur Identifizierung von Artikeln. Die Einschränkung der YOLO-Berechnung besteht darin, dass sie mit kleinen Artikeln innerhalb des Bildes kämpft, z.B. kann es Probleme bei der Unterscheidung einer Gruppe von gefiederten Kreaturen geben. Dies liegt an den räumlichen Beschränkungen der Berechnung.