Die Regularisierung ist beim maschinellen und tiefen Lernen wesentlich. Es handelt sich nicht um eine komplizierte Technik, und sie vereinfacht den Prozess des maschinellen Lernens. Beim Aufbau eines maschinellen Lernmodells geht es nicht nur darum, die Daten zu füttern. Wenn Sie Ihr Modell durch maschinelles Lernen mit Hilfe von künstlichen neuronalen Netzen trainieren, werden Sie auf zahlreiche Probleme stoßen. Diese Probleme könnten die Ausgabe drastisch beeinträchtigen. Dieser Artikel soll Ihnen helfen, die Techniken zu verstehen, mit denen Sie die Probleme während des maschinellen Lernprozesses verringern können.
Was ist Regularisierung?
Der Gebrauch der Regularisierung ist derselbe, wie der Name schon sagt. Regularisierung bedeutet, Dinge akzeptabel oder regelmäßig zu machen. Regularisierung ist eine Technik, die die Fehler eines Modells reduziert, indem sie eine Überanpassung vermeidet und das Modell so trainiert, dass es richtig funktioniert.
Überanpassung
Überbestückung ist ein weit verbreitetes Problem. Wenn Sie das Modell mit Daten überfüttern, die nicht handhabbar sind, beginnt es sich unregelmäßig zu verhalten. Diese Unregelmäßigkeit beinhaltet Rauschen anstelle von Signalen im Ergebnis. Ihr Modell wird beginnen, die unnötigen Daten als Konzept zu betrachten. Der dafür verwendete Begriff heißt “Überanpassung” und führt zu ungenauen Ergebnissen, was die Genauigkeit und Effizienz der Daten vermindert.
Angenommen, wir müssen vorhersagen, ob sich die neu graduierten Studenten für das Interview qualifizieren werden. Wir werden unser System mit 20.000 Lebensläufen trainieren, um zu sehen, ob sie sich qualifizieren oder nicht. Das Ergebnis, das wir erhalten werden, wird zu 99 Prozent genau sein. Wenn Sie nun Ihr Modell mit einem völlig anderen Datensatz testen, wird das Ergebnis weniger als 50 Prozent betragen. Dies geschieht, weil das Modell, das wir trainieren, das Ergebnis aus ungesehenen Daten nicht verallgemeinert. Wir können es auch in unserem täglichen Leben als passend ansehen.
Rauschen und Signal
Das Signal ist ein Muster, das dem Modell hilft, die relevanten Daten zu lernen. Rauschen ist jedoch eine zufällige und irrelevante Form der Daten, die Sie nicht in das Ergebnis einbeziehen möchten. Wir wollen nicht, dass unsere Modelle irrelevante Daten enthalten und unsere Ergebnisse beeinflussen. Der Grund für diese Unregelmäßigkeit ist der Algorithmus des Modells. Er lernt und beseitigt die Fehler während des Trainingsprozesses.
Ein längeres Training, selbst nachdem alle Fehler behoben sind, wird die Leistung verringern, da das Modell beginnt, irrelevante Daten zu lernen. Dadurch wird unser Modell kompliziert, und es gelingt ihm nicht, neue Daten zu verallgemeinern. Ein guter Algorithmus wird Rauschen und Signal trennen.
Wie die Regularisierung funktioniert
Der Hauptgrund für die “Überanpassung” des Modells ist, dass es die Daten wegen zu großer Irrelevanz nicht verallgemeinern kann. Die Regularisierung ist jedoch eine effektive Methode, die die Genauigkeit des Modells verbessert und unnötige Abweichungen reduziert.
Darüber hinaus vermeidet diese Technik auch den Verlust wichtiger Daten, der bei der Unteranpassung auftritt. Die Regularisierung hilft dem Modell beim Lernen, indem zuvor gelernte Beispiele auf die neuen ungesehenen Daten angewendet werden. Sie können auch die Modellkapazität reduzieren, indem Sie verschiedene Parameter auf Null fahren. Die Regularisierung entfernt zusätzliche Gewichtungen von bestimmten Merkmalen und verteilt diese Gewichtungen gleichmäßig.
Lassen Sie uns verstehen, wie das funktioniert. Wenn wir wollen, dass das Modell richtig funktioniert, definieren wir die Verlustfunktion. Diese Verlustfunktion wird die Leistung des Modells entsprechend den Daten durch die Verlustberechnung definieren. Wir müssen den Verlust minimieren, um das gewünschte Modell zu finden. Zu diesem Zweck fügt die Regularisierung Lambda hinzu, um die Verlustfunktion zu bestrafen. Wir erhalten die optimale Lösung aus dieser Technik, da sie hohe Trainingsfehler mit kleineren Lambda-Werten und komplexere Modelle mit höheren Lambda-Werten ablehnt.
Arten von Regularisierungstechniken
L1 Regularisierung
Das Regressionsmodell dieser Regularisierungstechnik wird als Lasso-Regression bezeichnet. Das Regressionsmodell ist ein Strafbegriff. Lasso ist die Abkürzung für den Operator für die geringste absolute Schrumpfung und Auswahl. Lasso fügt dem Koeffizienten den absoluten Wert der Größe hinzu. Diese Werte sind Strafterme der Verlustfunktion.
L2-Regulierung
Auf der anderen Seite ist das Regressionsmodell der L2-Regulierung die Ridge-Regression. Bei dieser Regularisierung ist der Strafterm der Verlustfunktion die quadrierte Größe des Koeffizienten. Bei dieser Methode ist der Wert von Lambda gleich Null, weil das Hinzufügen eines großen Lambda-Wertes mehr Gewichte hinzufügt, was zu einer Unteranpassung führt.
Auswahl zwischen L1 und L2 Regularisierung
Um die Regularisierungstechnik zwischen L1 und L2 zu wählen, müssen Sie die Menge der Daten berücksichtigen. Wenn die Datenmenge größer ist, sollten Sie die L2-Regularisierung verwenden. Wenn die Daten jedoch klein sind, müssen Sie die L1-Regularisierung wählen.
Abbruch-Regulierung
Laut Wikipedia bedeutet Dropout, sichtbare oder versteckte Einheiten fallen zu lassen. In einfachen Worten bedeutet Abbruch das Ignorieren der Einheiten oder Neuronen beim Training des Modells. Das Modell berücksichtigt diese Einheiten nicht, wenn die Daten durch ein künstliches neuronales Netz geleitet werden. Dadurch wird eine Überanpassung der Trainingsdaten vermieden.
Daten-Augmentation
Bei der Datenvergrößerungstechnik erhöhen Sie die Größe relevanter Daten oder Signale, die Sie in die Ausgabe aufnehmen möchten. Der Hauptgrund, warum das Modell nicht verallgemeinert ist, liegt in der Überanpassung. Wenn die Größe der relevanten Daten jedoch zunimmt, berücksichtigt das Modell das Hinzufügen von Rauschen nicht.
Schlussfolgerung
Wenn wir unser Modell durch überwachtes maschinelles Lernen trainieren, füttern wir Trainingsdaten. Nun wird das Modell durch Muster der Trainingsdaten lernen. Wir erwarten, dass das Modell Muster nur durch das Signal definiert, also durch relevante Daten. Das Modell enthält jedoch auch Rauschen. Dies beeinflusst die Leistung des Modells beim Durchlaufen neuer Daten.
An dieser Stelle hilft die Regularisierungstechnik. Sie reduziert die Komplexität durch Hinzufügen einer Strafe. Es gibt zwei gängige Arten von Regularisierungstechniken. L1 minimiert den Wert der Gewichte, und L2 minimiert die quadrierte Größe. Es gibt jedoch noch zwei weitere Techniken zur Vermeidung von Überanpassung, die eine ist “Drop Out” und die andere ist “Data Augmentation”. Drop out” ignoriert die irrelevanten Einheiten oder das Rauschen, und die Datenvergrößerung vergrößert die Größe des Signals.