Gradientenverstärkung ist eine beliebte Technik unter Datenwissenschaftlern wegen ihrer Genauigkeit und Geschwindigkeit, insbesondere bei komplexen und umfangreichen Daten.
Was ist Boosting
Sie müssen die Boosting-Grundlagen verstehen, bevor Sie etwas über Gradienten-Boosting lernen. Es ist eine Methode, um schwache Lernende in starke zu verwandeln. In der Boosting-Landschaft passt jeder Baum auf die modifizierte Version des ersten Datensatzes. Sie können den Gradienten-Boost-Algorithmus erklären, indem Sie den Ada-Boost-Algorithmus einrichten. Er beginnt mit dem Training von Entscheidungsbäumen. Jeder Beobachtung während dieses Verfahrens wird ein gleiches Gewicht zugewiesen.
Nach der Analyse des ersten Baums erhöhen die Datenwissenschaftler das Gewicht jeder Beobachtung, deren Klassifizierung ihnen kompliziert erscheint. Auf der anderen Seite verringern sie die Gewichte für diejenigen, bei denen die Klassifizierung kein Thema ist. Daher werden Sie feststellen, dass der zweite Baum auf den gewichteten Daten wächst. Die ursprüngliche Idee dabei ist, die Vorhersagen des ersten Baumes zu verbessern.

Das neue Modell, das wir verwenden werden, ist also Baum eins plus Baum zwei. Wir werden dann die Klassifikationsfehler aus dem neuen Ensemblemodell berechnen und einen dritten Baum zur Vorhersage der geänderten Residuen entwickeln. Wir werden dieses Verfahren für eine bestimmte Anzahl von Iterationen wiederholen. Die kommenden Bäume werden uns dabei helfen, jede Beobachtung zu bestimmen, bei der die vorherigen Bäume versagten oder Fehler aufwiesen.
Daher werden die Vorhersagen des letzten Ensemblemodells die gewichteten Gesamtvorhersagen der früheren Baummodelle sein. Die Gradientenverstärkung dient der Schulung mehrerer Modelle in sequentieller, additiver und gradueller Weise. Der Hauptunterschied zwischen Gradienten-Boosting- und Ada-Boost-Algorithmen besteht in der Art und Weise, wie sie die Unzulänglichkeiten der schwachen Lerner bestimmen.
Das Ada-Boost-Modell bestimmt die Fehler durch die Verwendung gewichteter Datenpunkte. Sie werden einige Ähnlichkeiten bei der Gradientenverstärkung feststellen, da sie unter Ausnutzung von Gradienten in Verlustfunktionen arbeitet. Für diejenigen, die es nicht wissen, zeigt die Verlustfunktion die Qualität der Koeffizienten eines Modells an und ob es zu den Fundamentaldaten passt.
Ein vernünftiges Verständnis dieser Funktion hängt von verschiedenen Faktoren ab, z.B. davon, was Sie optimieren möchten. Wenn Sie beispielsweise eine Regression zur Prognose von Verkaufspreisen verwenden, würde die Verlustfunktion auf Fehlern zwischen vorhergesagten und authentischen Preisen basieren.
Ähnlich verhält es sich, wenn die Klassifizierung von Kreditausfällen Ihr primäres Ziel ist – die Verlustfunktion würde zu einem Maß für die Klassifizierung von ungünstigen Krediten werden. Eine wesentliche Motivation für den Einsatz des Gradienten-Boostings ist seine Fähigkeit, verschiedene von den Anwendern vorgegebene Kostenfunktionen zu optimieren. Sie ist weitaus besser als Verlustfunktionen, da sie in der Regel weniger Kontrolle bietet und sich nicht mit Anwendungen in der realen Welt vermischt.
Boosting und Ensemble
Die individuelle Anpassung von maschinellen Lernmodellen an Daten ist bemerkenswert einfach. Sie können sie sogar zu einem Ensemble zusammenfügen. Der Begriff “Ensemble” bezieht sich auf die Kombination einzelner Modelle zu einem stärkeren, leistungsfähigeren Modell.
Die meisten Datenwissenschaftler greifen zur Bildung von Ensembles auf die Verstärkung des maschinellen Lernens zurück. Es beginnt damit, dass ein primäres Modell wie die lineare oder Baumregression mit den Daten angepasst wird. Anschließend konzentriert sich ein zweites Modell darauf, genaue Vorhersagen für Fälle mit leistungsschwachen Modellen zu liefern. Die Mischung dieser Modelle ist oft besser als ein einzelnes Modell. Sie müssen den Verstärkungsprozess mehrmals wiederholen. Jedes nachfolgende Modell versucht, die Fehler des gemischten, verstärkten Ensembles aus früheren Modellen zu korrigieren.
Gradienten-Boosting verstehen
Das Gradienten-Boosting ist ein Boosting-Typ für maschinelles Lernen. Sie stützt sich stark auf die Vorhersage, dass das nächste Modell die Vorhersagefehler reduziert, wenn es mit den vorhergehenden vermischt wird. Die Hauptidee ist die Festlegung von Zielergebnissen für dieses kommende Modell, um Fehler zu minimieren.
Wie berechnet man also die Ziele? Das Ergebnis jedes Falles hängt von der Anzahl der durch die Vorhersage hervorgerufenen Änderungen und deren Auswirkungen auf den Vorhersagefehler ab.
- Wenn die Vorhersage eine kleine Änderung aufweist und einen signifikanten Fehlerabfall verursacht, dann wird das erwartete Zielergebnis des Falles einen hohen Wert haben. Vorhersagen, die von neuen Modellen geliefert werden, könnten die Fehler reduzieren, solange sie sich in der Nähe ihrer Ziele befinden.
- Wenn es keine Fehleränderungen gibt, die durch eine kleine Vorhersageänderung verursacht werden, dann wird das nächste Ergebnis des Falles Null sein. Sie können den Fehler nicht durch eine Änderung der Vorhersage minimieren.
Der Begriff Gradientenverstärkung entstand, weil die Zielergebnisse jedes Falles auf dem Fehler des Gradienten in Bezug auf die Vorhersagen basieren. Jedes Modell reduziert die Vorhersagefehler, indem es einen Schritt in die richtige Richtung macht.
Wie ist Gradienten-Boosting nützlich?
Wie bereits erwähnt, ist die Gradientenverstärkung eine weit verbreitete Technik zur Erstellung von Vorhersagemodellen. Sie können sie auf zahlreiche risikobezogene Funktionen anwenden und die Vorhersagegenauigkeit des Modells verbessern. Das Gradienten-Boosting hilft auch bei der Lösung verschiedener Multikollinearitätsprobleme, bei denen es hohe Korrelationen zwischen den Vorhersagevariablen gibt.
Sie wären überrascht, wie viel Erfolg mit Gradientenverstärkungsmaschinen erzielt werden kann. Zahlreiche Anwendungen des maschinellen Lernens haben es genutzt.
Was braucht der Gradienten-Boosting-Algorithmus, um zu funktionieren?
Hier ist eine Liste der wesentlichen Komponenten, die von Gradientenverstärkungsalgorithmen benötigt werden:
Additives Modell
Wir versuchen, Verluste zu minimieren, indem wir mehr Entscheidungsbäume implementieren. Wir können auch die Fehlerraten durch Minimierung der Parameter verringern. In solchen Fällen erstellen wir das Modell, um sicherzustellen, dass es trotz Hinzufügung eines weiteren Baums keine Änderungen am bestehenden Baum gibt.
Schwacher Lerner
Schwache Lerner sind ein wesentlicher Bestandteil der Gradientenverstärkung für die Erstellung von Vorhersagen. Wir verwenden Regressionsbäume, um authentische Werte zu extrahieren. Es ist unerlässlich, Bäume gierig zu entwickeln, um den günstigsten Aufteilungspunkt zu erreichen. Dies ist ein wesentlicher Grund dafür, dass das Modell den spezifischen Datensatz meist überfittet.
Verlust-Funktion
Wir müssen die Verlustfunktionen optimieren, um Vorhersagefehler zu reduzieren. Im Gegensatz zu Ada Boost erhält das falsche Ergebnis beim Gradienten-Boosting kein erhöhtes Gewicht. Stattdessen minimiert es die Verlustfunktion von schwachen Lernenden, indem es Ausgangsmittelwerte erhält.
Abschließende Gedanken
Das Gradienten-Boosting beweist, dass es wohl die wirksamste Technik ist, um prädiktive Modelle für Regression und Klassifikationen zu erstellen. Sie können auch verschiedene Regularisierungs– oder Einschränkungsmethoden verwenden, um die Überanpassung und Leistung des Algorithmus zu verbessern. Programmierer können auch die Vorteile von Schrumpfung, randomisierten Stichproben, Baumbeschränkungen und bestraftem Lernen zur Bekämpfung von Überanpassung nutzen. Die Gradientenverstärkung hat sich bei der Lösung zahlreicher Herausforderungen des maschinellen Lernens im realen Leben bewährt.