Irregulärer Wald ist eine der bekanntesten und dominantesten KI-Berechnungen. Es ist eine Art Truppen-KI-Berechnung, die Bootstrap-Aggregation oder Packen genannt wird.

In diesem Beitrag finden Sie die Berechnung der Sacksammlung und die Berechnung des Zufallswaldes zur vorausschauenden Demonstration. Nach der Lektüre dieses Beitrags werden Sie darüber nachdenken:

Die Bootstrap-Strategie zur Bewertung messbarer Mengen aus Tests.

Die Bootstrap-Aggregationsberechnung zur Erstellung verschiedener Modelle aus einem einzelnen vorbereitenden Datensatz.

Die Random-Forest-Berechnung, die eine kleine Änderung der Absackung vornimmt und zu einem äußerst bahnbrechenden Klassifikator führt.

Bootstrap-Methode

Bevor wir zu Bagging kommen, sollten wir ein bedeutendes Etablierungssystem untersuchen, das Bootstrap genannt wird.

Der Bootstrap ist eine unglaublich messbare Technik zur Bewertung eines Betrags aus einem Informationstest. Dies ist am wenigsten anspruchsvoll zu verstehen, wenn es sich bei dem Betrag um eine aufschlussreiche Messung handelt, zum Beispiel um einen Mittelwert oder eine Standardabweichung.

Wie wäre es, wenn wir akzeptieren, dass wir ein Beispiel von 100 Qualitäten (x) haben und wir gerne einen Mittelwert des Beispiels erhalten würden.

Wir können den Mittelwert rechtmäßig aus dem Beispiel als berechnen:

Mittelwert(x) = 1/100 * Summe(x)

Wir sind uns bewusst, dass unser Beispiel klein ist und dass unsere Mittel darin versagt haben. Mit Hilfe der Bootstrap-Technik können wir unseren Mittelwert besser einschätzen:

Machen Sie viele (z.B. 1000) unregelmäßige Untertests unseres Datensatzes mit einer Substitution (was bedeutet, dass wir bei verschiedenen Gelegenheiten einen ähnlichen Wert wählen können).

Ermitteln Sie den Mittelwert der einzelnen Untertests.

Ermitteln Sie die Normalität der Gesamtheit unserer gesammelten Methoden und verwenden Sie diese als unseren bewerteten Mittelwert für die Informationen.

Nehmen wir zum Beispiel an, wir verwendeten 3 Resamples und erhielten die mittleren Qualitäten 2,3, 4,5 und 3,3. Wenn wir den Normalwert davon nehmen, könnten wir den geschätzten Mittelwert der Informationen mit 3,367 annehmen.

Dieses Verfahren kann verwendet werden, um verschiedene Beträge wie die Standardabweichung und sogar Beträge, die in KI-Berechnungen verwendet werden, als wissenschaftliche Koeffizienten zu bewerten.

Bootstrap-Sammlung (Verstauen)

Die Bootstrap-Akkumulation (oder kurz Sacking) ist eine unkomplizierte und außergewöhnlich bahnbrechende Truppentechnik.

Eine Truppenstrategie ist eine Methode, bei der die Erwartungen aus verschiedenen KI-Berechnungen zusammengeführt werden, um genauere Vorhersagen zu treffen als jedes einzelne Modell.

Die Bootstrap-Akkumulation ist eine allgemeine Strategie, die verwendet werden kann, um die Änderung für die Berechnung, die einen hohen Unterschied aufweist, zu verringern. Eine Berechnung, die einen hohen Unterschied aufweist, sind Auswahlbäume, ähnlich wie Charakterisierungs- und Rückfallbäume (Truck).

Auswahlbäume sind heikel für die besonderen Informationen, über die sie erstellt werden. Für den Fall, dass die Vorbereitungsinformationen geändert werden (z.B. ein Baum wird auf einer Teilmenge der Vorbereitungsinformationen vorbereitet), kann der nachfolgende Auswahlbaum sehr einzigartig sein, so dass die Erwartungen sehr außergewöhnlich sein können.

Sacking ist die Anwendung der Bootstrap-Strategie auf eine hochveränderliche KI-Berechnung, üblicherweise Auswahlbäume.

Wir sollten davon ausgehen, dass wir einen Beispieldatensatz von 1000 Anlässen (x) haben, und wir verwenden die Truck-Berechnung. Das Verstauen der Truck-Berechnung würde sich bei Verfolgungsjagden ausfüllen.

Machen Sie viele (z.B. 100) unregelmäßige Untertests unseres Datensatzes mit Substitution.

Trainieren Sie ein Lkw-Modell an jedem Beispiel.

Stellen Sie bei einem anderen Datensatz die normale Erwartung aus jedem Modell dar.

Für den Fall, dass wir zum Beispiel 5 Auswahlbäume weggepackt hätten, die die begleitende Klasse für einen Eingangstest erwarten: blau, blau, rot, blau und rot, würden wir die unaufhörlichste Klasse nehmen und blau voraussehen.

Beim Stauen mit Auswahlbäumen machen wir uns weniger Sorgen, dass einzelne Bäume die Vorbereitungsinformationen überfüllen. Aus diesem Grund und aus Gründen der Fachkenntnis werden die einzelnen Auswahlbäume tiefgründig entwickelt (z.B. kaum Vorbereitungstests an jeder Blattnabe des Baumes) und die Bäume nicht beschnitten. Diese Bäume weisen sowohl einen hohen Unterschied als auch eine geringe Neigung auf. Diese stellen bei der Konsolidierung von Vorhersagen unter Verwendung von Packen ein bedeutendes Abbild von Teilmodellen dar.

Der Hauptparameter beim Verpacken von Auswahlbäumen ist die Anzahl der Tests und damit die Anzahl der aufzunehmenden Bäume. Diese kann gepflückt werden, indem man die Anzahl der Bäume auf der Versuchsreihe so lange erhöht, bis die Genauigkeit aufhört, eine Verbesserung anzudeuten (z.B. bei einem Cross-Approval-Testgerät). Sehr große Mengen von Modellen können einen langen Vorbereitungsaufwand erfordern, ohne dass sie die Vorbereitungsinformationen überfordern.

Ähnlich wie bei den Entscheidungsbäumen selbst, können Entlassungen zur Lösung von Ordnungs- und Rückfallproblemen genutzt werden.

Unregelmäßige Wälder

Irregular Timberlands sind eine Verbesserung gegenüber weggepackten Edelhölzern.

Ein Problem mit ausgesuchten Bäumen wie Truck ist, dass sie begehrenswert sind. Sie wählen die zu trennende Variable mit Hilfe einer eifrigen Berechnung, die Fehler einschränkt. So können die Bäume selbst beim Stauen eine Tonne von Hilfssimilituden haben und somit in ihren Erwartungen einen hohen Zusammenhang aufweisen.

Die Zusammenführung der Erwartungen aus zahlreichen Modellen in Outfits funktioniert besser, wenn die Prognosen aus den Teilmodellen unkorreliert sind oder im besten Fall kläglich übereinstimmen.

Arbitrary woodland verändert die Berechnung für die Art und Weise, wie die Teilbäume herausgefunden werden, mit dem Ziel, dass die nachfolgenden Prognosen aus der Gesamtheit der Teilbäume weniger miteinander in Beziehung stehen.

Es ist eine unkomplizierte Änderung. Bei Truck kann die Lernkalkulation bei der Wahl eines Split-Punktes alle Faktoren und jeden einzelnen variablen Anreiz durchschauen, um den idealsten Split-Punkt zu wählen. Die willkürliche Waldlandberechnung ändert diese Methodik mit dem Ziel, dass die Lernberechnung auf ein unregelmäßiges Beispiel von Höhepunkten beschränkt wird, von denen man einen Blick auf sie werfen kann.

Die Anzahl der Hervorhebungen, die bei jedem Aufteilungspunkt (m) betrachtet werden können, muss als ein Parameter für die Berechnung bestimmt werden. Sie können verschiedene Qualitäten ausprobieren und diese mit Hilfe von Cross Approval abstimmen.

Für die Charakterisierung ist eine anständige Vorgabe: m = sqrt(p)

Für einen Rückfall ist eine anständige Vorgabe: m = p/3

Dabei ist m die Menge willkürlich ausgewählter Hervorhebungen, die an einem Aufteilungspunkt betrachtet werden können, und p die Menge der Informationsfaktoren. Zum Beispiel für den unwahrscheinlichen Fall, dass ein Datensatz zu diesem Zeitpunkt 25 Informationsfaktoren für ein Gruppierungsproblem enthielt:

m = sqrt(25)

m = 5

Bewertete Ausführung

Für jeden Bootstrap-Test, der aus den Vorbereitungsinformationen entnommen wurde, wird es verwaiste Tests geben, die ausgeschlossen wurden. Diese Beispiele sind Out-Of-Sack-Tests oder OOB erhalten.

Die Ausstellung der einzelnen Modelle links neben den Beispielen beim Finden des Mittelwertes kann eine erwartete Genauigkeit der weggepackten Modelle angeben. Diese bewertete Ausstellung wird häufig als OOB-Messlatte für die Ausführung bezeichnet.

Diese Ausstellungsvoranschläge sind solide Testfehlerindikatoren und stimmen gut mit den Querzulassungsindikatoren überein.