Das Ziel dieses Postens ist es, Ihnen die Chance zu geben, umso wahrscheinlicher einen Kantenrezidiv zu nutzen, als einfach das zu nutzen, was Bibliotheken geben. An diesem Punkt, “Was ist ein Kantenrückfall?”. Die am wenigsten komplexe Herangehensweise an die Anfrage ist “Variety of Direct Relapse”. Der auffallend schrecklichste Weg ist, mit den begleitenden wissenschaftlichen Bedingungen zu beginnen, die nur wenige von Anfang an nachvollziehen können.

Die schreckliche Nachricht ist, dass wir trotz allem, was wir brauchen, um es zu schaffen, und die erbauliche Nachricht ist, dass wir nicht mit solchen Bedingungen beginnen werden, aber eben nicht im Moment. Was ich mir in erster Linie wünschen würde, wäre “Standard Least Squares (OLS)”. Für den unwahrscheinlichen Fall, dass Sie zufällig fast kein Fundament für einen geraden Rückfall haben, wird Ihnen dieses Video dabei helfen, ein Gefühl dafür zu bekommen, wie es funktioniert, wenn Sie die “Least Square Technique” anwenden. Gegenwärtig erkennen Sie, dass die OLS im Großen und Ganzen dem entspricht, was wir als “geraden Rückfall” bezeichnen, und ich werde den Begriff alles in allem verwenden.

Bevor Sie fortfahren

In den folgenden Abschnitten werde ich verschiedene Strategien mit unterschiedlichen Begriffen und Zahlen anwenden. Es gibt zwei Dinge, an die Sie sich erinnern müssten. Das eine ist, dass wir uns nicht um Überanpassung kümmern. Letzten Endes neigen wir im Allgemeinen zu einem Modell, das allgemeine Beispiele erhält. Das andere ist, dass unser Ziel darin besteht, es anhand neuer Informationen vorherzusehen, nicht anhand expliziter Informationen. In diesem Sinne sollte sich die Modellbewertung auf neue Informationen (Testsatz) und nicht auf gegebene Informationen (Vorbereitungssatz) stützen. Außerdem werde ich die begleitenden Begriffe wechselseitig verwenden.

Autonome Variable = Hervorheben = Eigenschaft = Indikator = X

Koeffizient = Beta = β

Übriggebliebenes Aggregat von Quadraten = RSS

Warum und warum nicht OLS

Least-Square-Strategie findet die besten und gerechtesten Koeffizienten

Sie erkennen vielleicht, dass die Strategie der kleinsten Quadrate die Koeffizienten findet, die am besten zu den Informationen passen. Eine weitere Bedingung ist, dass sie ebenfalls die unvoreingenommenen Koeffizienten findet, die am besten zu den Informationen passen. Unvoreingenommenheit bedeutet hier, dass OLS nicht darüber nachdenkt, welcher freie Faktor eine höhere Priorität hat als andere. Sie findet im Wesentlichen die Koeffizienten für einen gegebenen Informationsindex. Es gibt also nur eine Menge von Betas zu finden, die in der minimalsten “Restsumme der Quadrate (RSS)” zustande kommen. Die Frage an diesem Punkt lautet: “Ist ein Modell mit dem minimalsten RSS wirklich das beste Modell?

Prädisposition versus Veränderung

Die Antwort auf die obige Anfrage lautet: “Nicht so sehr”. Wie im Wort “Fair” angedeutet, müssen wir auch “Neigung” berücksichtigen. Neigung bedeutet, wie ähnlich ein Modell über seine Indikatoren denkt. Nehmen wir an, es gibt zwei Modelle, um die Kosten eines Apfels mit den beiden Indikatoren “Süße” und “Prickeln” zu antizipieren; das eine Modell ist unparteiisch und das andere einseitig.

Zunächst versucht das Messe-Modell, ähnlich wie die OLS-Strategie, den Zusammenhang zwischen den beiden Höhepunkten und den Kosten aufzudecken. Dieses Modell wird die Wahrnehmungen so weit wie denkbar anpassen, um die RSS zu begrenzen. In jedem Fall könnte dies ohne großen Aufwand zu einer Überanpassung führen. Als solches wird das Modell auch mit neuen Informationen nicht funktionieren, da es für die gegebenen Informationen so explizit gearbeitet wird, dass es möglicherweise nicht für neue Informationen geeignet ist.

Das einseitige Modell räumt ein, dass seine Faktoren inkonsistent sind, um jeden Indikator auf unerwartete Weise zu behandeln. Um auf das Modell zurückzukommen, müssten wir nur über die “Süße” nachdenken, um ein Modell zusammenzustellen, und dieses sollte mit neuen Informationen besser funktionieren. Die Erklärung wird nach dem Verständnis von “Neigung versus Veränderung” geklärt werden. Für den Fall, dass Sie neugierig auf den Punkt Neigung versus Fluktuation sind, empfehle ich Ihnen nachdrücklich, sich dieses Video anzusehen, das Ihnen Verständnis geben wird.

Man kann sehr wohl sagen, dass die Veranlagung mit einem Modell zusammenhängt, das die Anpassung an das Präparationsset vernachlässigt, und dass der Unterschied mit einem Modell zusammenhängt, das die Anpassung an das Testset vernachlässigt. Neigung und Unterschied stehen im Austausch der Beziehung über die Modellkomplexität, was bedeutet, dass ein einfaches Modell eine hohe Prädisposition und eine geringe Veränderung hätte, und umgekehrt. In unserem Apfelmodell würde ein Modell, das nur die “Süße” berücksichtigt, nicht so gut zu den Präparatinformationen passen wie das andere Modell, das sowohl “Süße” als auch “Prickeln” berücksichtigt; das geradlinigere Modell ist jedoch besser in der Lage, neue Informationen vorherzusehen.

Dies mit der Begründung, dass “Süße” ein Kostenfaktor ist, während “Glitzern” nicht mit gesundem Menschenverstand beurteilt werden sollte. Wir als Ganzes wissen das als Mensch, aber numerische Modelle denken nicht wie wir und stellen einfach fest, was gegeben ist, bis sie eine Verbindung zwischen jedem einzelnen Indikator und der autonomen Variablen entdecken, um die Informationen aufzubereiten.

Wo die First-Regression ins Spiel kommt

Wenn man einen Blick auf die Zahl Prädisposition versus Veränderung wirft, ist der Y-Hub “Fehler”, das heißt die “Summe von Prädisposition und Fluktuation”. Da diese beiden im Wesentlichen mit dem Abflachen zusammenhängen, sollten wir sie vielleicht einschränken. Wenn Sie sich derzeit intensiv mit der Figur beschäftigen, werden Sie feststellen, dass das Erkennen des allumfassenden Fehlers am wenigsten irgendwo in der Mitte liegt. Dies ist eine Regel namens ‘Sweet Spot’.

Wir sollten überprüfen, dass die OLS jeden der Faktoren ähnlich (fair) behandelt. Auf diese Weise erweist sich ein OLS-Modell als zunehmend verwirrend, je mehr neue Faktoren einbezogen werden. Man kann sehr wohl sagen, dass sich ein OLS-Modell durchgehend auf der rechten Seite der Abbildung befindet und die geringste Neigung und den bemerkenswertesten Unterschied aufweist. Es ist dort fixiert, bewegt sich nie, dennoch müssen wir es an den Sweet Spot verschieben. Dann würde ein Kantenrezidiv funkeln, zusätzlich angedeutet als Regularisierung. Beim Kantenrezidiv kann man den Lambda-Parameter mit dem Ziel einstellen, dass sich die Modellkoeffizienten ändern. Dies lässt sich am besten mit einer Programmierdemo nachvollziehen, die gegen Ende vorgestellt wird.

Geometrisches Verständnis des Kantenrückschlags

Gewöhnlich ist ein realistisches Gefühl dafür, wie ein Modell funktioniert und ein Kantenrückfall kein Sonderfall. Die nebenstehende Abbildung ist die geometrische Übersetzung zum Nachdenken über OLS und Kantenrezidiv.

Formulare und OLS-Messgerät

Jede Form ist eine Assoziation von Punkten, bei denen die RSS das Äquivalent ist, fokussiert mit dem OLS-Messgerät, wo die RSS am geringsten ist. Zusätzlich ist das OLS-Maß dort, wo es am besten zum Präparationssatz passt (geringe Prädisposition).

Kreis- und Kantenlehre

Ganz anders als das OLS-Messgerät ändert sich das Kantenmessgerät, wenn sich die Größe des blauen Kreises ändert. Es ist genau dort, wo der Kreis auf die äußerste Form trifft. Wie die Kantenrückschlagfunktionen funktionieren, ist die Art und Weise, wie wir die Größe des Kreises abstimmen. Der springende Punkt ist, dass sich β auf einer alternativen Ebene ändert.

Angenommen, β1 steht für “Sparkle” und β2 für “Sweetness”. Wie offensichtlich sein sollte, fällt der Rand β1 im Allgemeinen schneller auf Null als der Rand β2, wenn sich die Kreisgröße ändert (denken Sie an die beiden Zahlen). Die Motivation, warum dies geschieht, liegt darin begründet, dass sich die β durch die RSS kontrastierend verändert. Umso selbstverständlicher sind die Formen keine Kreise, sondern Ovale, die geneigt liegen.