Coursera Learner working on a presentation with Coursera logo and

Zufallswälder verstehen

Coursera Learner working on a presentation with Coursera logo and

Zufallswälder sind eine maschinelle Lernmethode zur Klassifizierung von Algorithmen. Es besteht aus mehreren einzelnen Entscheidungsbäumen, die auf Zufallsmerkmalen und Datentraining beruhen, um zu einer intelligenten Schätzung zu gelangen, die glaubwürdiger ist als ein einzelner Entscheidungsbaum. Alle Entscheidungsbäume in den Zufallswäldern sind separate Modelle. Jeder von ihnen verwendet eine Untergruppe von Zufallsmerkmalen, um ein Ziel vorherzusagen, und alle diese vorhergesagten Ziele summieren sich, um ein genaueres Ziel vorherzusagen.

Ausgehend von Entscheidungsbäumen

In Anbetracht der Tatsache, dass nicht jeder, der dies liest, vielleicht den Jargon des maschinellen Lernens kennt, haben wir beschlossen, die Konzepte in Laienbegriffe zu zerlegen. Jeder hat wissentlich oder unwissentlich Entscheidungsbäume entweder während seiner akademischen Jahre oder während seines Berufslebens verwendet. Das Konzept ist wie ein Flussdiagramm, in dem man komplexe Daten oder Texte in einfache Schritte in Form eines Kastendiagramms zerlegt.

Obwohl die Dinge in einem Entscheidungsbaum nicht so einfach und einseitig sind wie in einem Flussdiagramm, beginnt man in einem Entscheidungsbaum mit einem Anfangsteil und erstellt immer wieder Knoten zwischen Variablen, bis man sein Ziel erreicht hat. Zum Beispiel möchte jemand, dass Sie den Rang seiner Lieblingsfußballmannschaft in einem bevorstehenden Turnier vorhersagen. Hier beginnen Sie mit der Anfangswahrscheinlichkeit. Aber diese Anfangswahrscheinlichkeit kann nicht die absolute Antwort sein, insbesondere dann nicht, wenn Verzerrungen in den Vorhersageprozess involviert sind. Sie müssen Gründe angeben und mit Zahlen arbeiten, um Ihre Vermutung so glaubwürdig wie möglich zu machen.

Die erste Abweichung wird von Ihrer Frage herrühren, die Ihnen bei der Entscheidung helfen wird, wie Sie Ihr Ziel erreichen können. Jede Frage, die Sie stellen werden, erzeugt eine Varianz, gefolgt von einem “Ja oder Nein”- oder “Richtig oder Falsch”-Weg, der schließlich einen Zweig zu Ihrem Entscheidungsbaum hinzufügt. Jedes Mal, wenn Sie einen Weg einschlagen, müssen Sie eine Beziehung zwischen dem Wissen, das Sie vor diesem Punkt erworben haben, herstellen. In gewissem Sinne hängt alles von Ihrer Fähigkeit ab, die Fragen zu stellen, die Ihnen helfen, das am besten geeignete Wissen zu erwerben, um Ihr gewünschtes Ziel zu erreichen.

Die Korrelation zwischen dem Entscheidungsbaum und dem Zufallswald

Wie bereits erwähnt, sind Zufallswälder eine Ansammlung von mehreren individuellen Entscheidungsbäumen. Alle Entscheidungsbäume, die dazu gehören, verwenden verschiedene Variablen aus demselben Datensatz, obwohl sie alle auf unterschiedliche Weise das gewünschte Ziel erreichen. Die Glaubwürdigkeit dieser Wälder beruht auf der Tatsache, dass keine zwei Personen ein Ziel auf dem gleichen Weg oder mit der gleichen Argumentation erreichen können. Und selbst wenn einige davon ähnlich sind, kann man diese sich wiederholenden Muster im Wald immer für die Beseitigung von Versuch und Irrtum nutzen.

Ein Sportanalytiker, ein Ex-Fussballspieler, ein Sportjournalist, ein begeisterter Fan und ein Schiedsrichter im Ruhestand werden beispielsweise eine andere Frage stellen, um das Ergebnis eines Spiels vorherzusagen. Sie alle haben unterschiedliche Fähigkeiten, Informationen und Kenntnisse über das Spiel; daher werden sich auch ihre Methoden zur Erreichung des Vorhersageziels unterscheiden. Nicht nur ihr Wissensspiel, sondern auch ihre Argumentation zur Herstellung einer Beziehung zwischen den Variablen, die aus den gewonnenen Daten gewonnen werden, ist unterschiedlich.

Nun werden die Entscheidungsbäume all dieser Personen ein Modell erstellen. Zusammengenommen ist dieses Modell ein “Zufallswald”. Sie haben all diese individuellen Vorhersagen aus mehreren unkorrelierten Entscheidungsbäumen, und alle haben einzigartige Methoden zur Vorhersage des gewünschten Ziels verwendet. Sie können all diese Vorhersagen verwenden, um die Genauigkeit Ihrer endgültigen Vorhersage zu erhöhen.

Wie es funktioniert

Die Schaffung eines Zufallswaldes ist nicht nur eine Frage der Schaffung drastisch entgegengesetzter Variablen oder der Auswahl zufälliger Merkmale aus den verfügbaren Daten. Sie müssen ein Gespür für die Datenzuordnung und ein Gespür dafür haben, vernünftige Fragen zu stellen, um eine genaue Schätzung vornehmen zu können. Maschinen können lernen, dies zu tun, indem sie die Informationen, mit denen Sie sie über Jahre hinweg füttern, speichern, aber sie werden trotzdem nicht in der Lage sein, die bahnbrechenden Fragen zu stellen, die ein Mensch stellen würde, wenn er sich in einer Sackgasse in einem Entscheidungsbaum befindet.
Damit ein Zufallswald funktionieren kann, müssen Sie mehrere Entscheidungsbäume sammeln. Alle diese Bäume werden zufällige Trainingsdaten verwenden, die bei der Erstellung von Merkmalen helfen werden. Sie müssen wissen, dass Merkmale die Beziehungen sind, die ein Klassifizierer zwischen den Daten beim maschinellen Lernen aufbaut, und das, was wir vorhersagen wollen, ist das Ziel.

Vorteile

Im Folgenden sind einige Vorteile eines Zufallswaldes aufgeführt:
Der Zufallswald erhöht die Genauigkeit Ihrer Vorhersage
Sie nutzen die Weisheit einer Menschenmenge statt einer Person oder einer Maschine
Keine der Entscheidungen, die in einem Wald getroffen werden, sind miteinander korreliert

Schlussfolgerung

Das maschinelle Lernen mag mehrere komplizierte Konzepte und Begriffe haben, die sich dem Verständnis eines Außenstehenden entziehen, aber der Zufallswald ist ein Begriff, der seiner ursprünglichen Bedeutung nahe kommt. Jeder Entscheidungsbaum, der zu ihm gehört, ist sein Baustein und wirkt wie ein Ast eines Baumes. Wenn Sie mehrere Entscheidungsbäume in einen Topf werfen, haben Sie einen der glaubwürdigsten und genauesten Vorhersage-Klassifikationsalgorithmen des maschinellen Lernens, den sogenannten Zufallswald, in der Hand.