Was ist ein Rest-Neuronales Netzwerk?

Ein Residuales Neuronales Netz, das als “ResNet” bezeichnet wird, ist ein bekanntes künstliches neuronales Netz. Es sammelt sich auf Konstrukten, die aus den Pyramidenzellen der Großhirnrinde gewonnen werden. Die Residualen Neuronalen Netze erreichen dies durch die Verwendung von Verknüpfungen oder “Skip-Verbindungen”, um sich über verschiedene Schichten zu bewegen.

Experten implementieren traditionelle Residualneuronale Netzwerkmodelle mit zwei- oder dreischichtigen Skips, die Batch-Normalisierung und dazwischen liegende Nichtlinearitäten enthalten. Datenwissenschaftler nutzen in einigen Fällen auch eine zusätzliche Gewichtungsmatrix zum Erlernen der Sprunggewichte. Zur Beschreibung dieses Phänomens wird der Begriff “Highwaynets” verwendet. Modelle, die aus mehreren parallelen Skips bestehen, sind “Densenets”. Nicht-Restnetzwerke können auch als “plain networks” bezeichnet werden, wenn man von neuronalen Restnetzwerken spricht.

Ein massiver Grund für das Überspringen von Schichten ist es, sich von verschwindenden Gradienten und ähnlichen Problemen fernzuhalten. Da der Gradient auf vorhergehende Schichten zurückpropagiert wird, kann dieser wiederholte Prozess den Gradienten extrem klein machen. Die meisten Personen tun dies, indem sie die Aktivierungen aus den vorhergehenden Schichten nutzen, bis die angrenzende Schicht bestimmte Gewichte lernt. Während des Trainings passen sich diese Gewichte an die vorhergehenden Schichten an und vergrößern die zuvor übersprungene Schicht. Im einfachsten Fall kommen die Gewichte ins Spiel, die zur Verbindung der benachbarten Schichten verwendet werden.

Dies funktioniert jedoch nur dann effektiv, wenn alle Zwischenschichten linear sind oder sich über die nichtlineare Schicht überlappen. Wenn dies nicht der Fall ist, wäre die Verwendung einer anderen Gewichtsmatrix für übersprungene Verbindungen hilfreich. Am besten wäre es, wenn Sie in solchen Fällen die Verwendung eines Highwaynet in Betracht ziehen.

Durch das Überspringen werden Komplikationen aus dem Netz entfernt, wodurch es einfacher wird, da in der Anfangsphase des Trainings nur sehr wenige Schichten verwendet werden. Es beschleunigt das Lernen um das Zehnfache und minimiert den Effekt verschwindender Gradienten. Warum? Weil es kaum Schichten gibt, durch die man sich ausbreiten kann. Danach legt das Netzwerk schließlich die qualifizierten Schichten wieder zurück, während es den Merkmalsraum lernt.

Wenn sich das Training dem Abschluss nähert und jede Schicht sich ausdehnt, nähern sie sich der Vielfalt und lernen die Dinge schneller. Ein neuronales Netzwerk, das keine Restanteile hat, hat mehr Freiheit bei der Erkundung des Merkmalsraums, wodurch es hochgradig gefährdet ist, Störungen zu erfahren, was dazu führt, dass es die Mannigfaltigkeit verlässt und die zusätzlichen Trainingsdaten sich erholen müssen.

Was machte den Bedarf an neuronalen Restnetzen notwendig?

Nachdem AlexNets einen Triumph beim LSVRC-Klassifizierungswettbewerb 2012 gefeiert hatte, wurde das Deep Residual Network wohl die innovativste und genialste Innovation in der Geschichte der Deep Learning und Computer Vision Landschaft. Mit ResNet können Sie Hunderte, wenn nicht Tausende von Schichten trainieren und dabei faszinierende Leistungen erzielen.

Zahlreiche Computer Vision-Anwendungen machten sich die starken Darstellungsfähigkeiten von Residual Neural Network zunutze und stellten einen massiven Aufschwung fest. Die Bildklassifizierung war nicht die einzige Computer Vision-Anwendung, die ResNet nutzte – auch die Gesichtserkennung und die Objekterkennung profitierten von dieser bahnbrechenden Innovation.

Da die Rest-Neuronalen Netze bei ihrer Einweihung im Jahr 2015 die Menschen in Erstaunen versetzten, versuchten mehrere Personen in der Forschungsgemeinschaft, die Geheimnisse hinter ihrem Erfolg zu entdecken, und man kann mit Sicherheit sagen, dass es in der riesigen Architektur von ResNet eine Menge Verfeinerungen gegeben hat.

Das Problem des verschwindenden Gradienten (Vanishing Gradient)

Das verschwindende Gradientenproblem ist in der tiefen Lern- und Datenwissenschaftsgemeinschaft weit verbreitet. Menschen stoßen häufig auf dieses Problem, wenn sie künstliche neuronale Netze mit Backpropagation und gradientenbasiertem Lernen trainieren. Wie bereits erwähnt, verwenden Experten Gradienten zur Aktualisierung von Gewichten in einem bestimmten Netzwerk.
Manchmal sind die Dinge jedoch anders, da der Gradient unglaublich klein wird und fast verschwindet. Dadurch wird verhindert, dass die Gewichte ihre Werte ändern, was dazu führt, dass das Netzwerk das Training abbricht, da sich die gleichen Werte immer wieder verbreiten, ohne dass eine sinnvolle Arbeit geleistet wird.

ResNet und tiefes Lernen

Jedes Modell des Tiefenlernens verfügt über mehrere Schichten, die es ihm ermöglichen, Eingabemerkmale zu verstehen, was ihm hilft, eine fundierte Entscheidung zu treffen. Das ist zwar recht einfach, aber wie identifizieren Netzwerke verschiedene Merkmale, die in den Daten vorhanden sind?
Es wäre fair, sich neuronale Netze als universelle Funktionsapproximatoren vorzustellen. Modelle versuchen, die richtigen Parameter zu lernen, die ein Merkmal oder eine Funktion, die die richtige Ausgabe liefert, genau repräsentieren. Das Einbeziehen weiterer Schichten ist eine großartige Möglichkeit, Parameter hinzuzufügen, und es ermöglicht auch die Abbildung komplizierter nichtlinearer Funktionen.

Dies bedeutet jedoch nicht, dass das Stapeln von Tonnen von Schichten zu einer verbesserten Leistung führt. Wenn Sie genau hinsehen, werden Sie feststellen, dass es einen Haken gibt. Wir stellen zwar fest, dass die Implementierung unserer Modelle mit mehr Schichten zu besseren Leistungen führt, aber die Ergebnisse könnten sich unter bestimmten Bedingungen drastisch ändern, was zu einer Sättigung und schließlich zu einem raschen Rückgang führen könnte.

Verstehen des Problems mit mehreren Schichten

Wir müssen zunächst verstehen, wie Modelle aus Trainingsdaten lernen. Der Prozess geschieht, indem jeder Input durch das Modell geleitet wird (auch als Feedforward bezeichnet) und es erneut durchlaufen wird (auch als Backpropropagation bezeichnet). Die Aktualisierung subtrahiert den Gradienten der Verlustfunktion in Bezug auf den vorherigen Wert des Gewichts.

Wie ResNet das Problem des abnehmenden Gradienten löst (Vanishing Gradient)

Wie reichlich erwähnt, sind neuronale Restnetze die ideale Lösung für das Problem des verschwindenden Gradienten. Experten für tiefes Lernen fügen Abkürzungen zum Überspringen von zwei oder drei Schichten hinzu, um den Prozess schneller zu machen, wodurch die Abkürzung die Art und Weise verändert, wie wir Gradienten auf jeder Schicht berechnen. Um die Dinge zu vereinfachen, verhindert das Durchlaufen der Eingabe durch die Ausgabe, dass einige Schichten die Werte des Gradienten ändern, was bedeutet, dass wir das Lernverfahren für einige bestimmte Schichten überspringen können. Das Phänomen verdeutlicht auch, wie der Gradient wieder in das Netzwerk gelangt.

Wenn wir mit dem Training fortfahren, begreift das Modell das Konzept, die nützlichen Schichten beizubehalten und nicht diejenigen zu verwenden, die nicht helfen. Das Modell wandelt letztere in Identitätsabbildungen um. Es ist ein wichtiger Faktor für den Erfolg des neuronalen Restnetzes, da es unglaublich einfach ist, Schichten zu erstellen, die die Identitätsfunktion abbilden.

Darüber hinaus ist die Tatsache, dass es die Möglichkeit gibt, Schichten, die nicht helfen, auszublenden, immens nützlich. Eine riesige Anzahl von Schichten kann die Dinge ziemlich verwirrend machen, aber mit Hilfe von Residual-Neuronalen Netzen können wir entscheiden, welche wir behalten wollen und welche keinen Zweck erfüllen.

Schlussbemerkungen

Man kann mit Fug und Recht behaupten, dass die Architektur des neuronalen Restnetzes unglaublich hilfreich war, um die Leistung neuronaler Netze mit mehreren Schichten zu erhöhen. In ihrem Kern sind ResNets wie verschiedene Netzwerke mit geringfügigen Modifikationen. Diese Architektur hat ähnliche Funktionsschritte wie CNN (Convolutional Neural Networks) oder andere. Es gibt jedoch einen zusätzlichen Schritt zur Lösung des Problems des verschwindenden Gradienten und anderer verwandter Probleme.