Mit immer fortschrittlicheren Algorithmen für maschinelles Lernen und Deep Learning können Sie fast jedes Problem mit geeigneten Datensätzen lösen. Mit zunehmender Komplexität der Modelle werden diese jedoch immer schwieriger zu interpretieren. Wenn man über die Interpretierbarkeit der Modelle des maschinellen Lernens spricht, kommt einem als erstes die lineare Regression in den Sinn. Die lineare Regression ist ein Modell, das recht einfach und leicht zu interpretieren ist. Abgesehen davon, dass es einfach ist, beinhaltet es verschiedene Interpretierbarkeitsprobleme, insbesondere in Bezug auf die Verletzung der Annahmen der linearen Regression. Sie können die Annahmen der Linearen Regression auch als Multikollinearität bezeichnen.

Was ist Multikollinearität?

Wenn in einem Regressionsmodell zwei oder mehr als zwei unabhängige Variablen miteinander korrelieren, können Sie das Modell als Multikollinearität bezeichnen. Das bedeutet, dass Sie in dieser Art von Modell eine unabhängige Variable mit einer anderen unabhängigen Variable vorhersagen können. Zu den Variablen können Gewicht und Größe, Wasserverbrauch und Haushaltseinkommen, Preis des Autos und Kilometerstand, Freizeit und Studienzeit und andere gehören.

Sie können jede beliebige Variable aus Ihrem täglichen Leben nehmen. Sie lieben es zum Beispiel, Chips zu mampfen, während Sie fernsehen – die Zufriedenheitsrate steigt, wenn Sie mehr fernsehen und mehr Chips essen. Wenn Sie nun überlegen, welche Dinge Sie beschäftigen und glücklich machen, welche Aktivität finden Sie dann interessant und hat einen größeren Einfluss auf Ihr Glücksniveau? Werden Sie sich glücklicher fühlen, wenn Sie Chips essen oder wenn Sie fernsehen?

Das wäre schwer zu messen, denn wenn Sie mehr fernsehen, werden Sie mehr Chips essen, und wenn Sie mehr Chips essen, müssen Sie mehr fernsehen. Diese beiden Aktivitäten korrelieren miteinander. Es wird schwierig sein, den Einfluss der einen Aktivität auf die andere für das Glück zu bestimmen. Das ist das eigentliche Problem der Multikollinearität. Lassen Sie uns nun herausfinden, wie Sie Multikollinearität in Bezug auf maschinelles Lernen messen können.

Arten von Multikollinearität

Multikollinearität besteht aus zwei verschiedenen Typen. Der erste Typ von Multikollinearität ist strukturell. Sie ist ein Nebenprodukt. Da Sie diese Annahme mit Hilfe der vorhandenen unabhängigen Variable erstellen, können Sie sie leicht verfolgen. Die unabhängige Variable x des ersten Typs ist quadratisch. Zum Beispiel, wenn die strukturelle Multikollinearität berücksichtigt, dass Sie einen Datensatz haben und Sie ein Log für die Normalisierung oder Skalierung der Merkmale verwenden. Der zweite Typ ist die Daten-Multikollinearität, die gefährlicher ist als die strukturelle. Diese Multikollinearität ist schwieriger zu identifizieren und zu interpretieren. Wenn Sie pandas data frame verwenden, wird diese Art von Multikollinearität bereits eingebettet.

Erkennen und Entfernen von Multikollinearität

Die optimale Lösung zur Kategorisierung der Multikollinearität ist die Berechnung des Varianz-Inflationsfaktors, der jeder einzelnen Variable in den Daten entspricht. Durch die Kenntnis des Varianz-Inflationsfaktors können Sie feststellen, ob die Variable vorhersagbar ist oder nicht. Hierfür werden Sie andere unabhängige Variablen verwenden. Wir können das Konzept anhand des folgenden Beispiels verstehen:

Wenn Sie von diesen neun verschiedenen Variablen ausgehen, können Sie den Varianz-Inflations-Faktor für die erste Variable, d. h. V1, berechnen. Um die Variable V1 zu berechnen, sollten Sie sie als Zielvariable betrachten und sie von allen anderen Variablen isolieren. Behandeln Sie alle anderen Variablen als Prädiktorvariablen.

Durch die Verwendung anderer Variablen können wir den entsprechenden Wert von R2 finden. Um den Wert zu finden, trainieren Sie Ihr Regressionsmodell unter Verwendung der Prädiktorvariablen. Sie können den VIF-Wert mit Hilfe des R2-Wertes berechnen. Die Ausgabe wird sein:

Aus der obigen Formel ist klar ersichtlich, dass sowohl der R2-Wert als auch der Varianz-Inflations-Faktor gleichzeitig ansteigen. Wenn der R2-Wert höher ist, zeigt dies, dass die anderen unabhängigen Variablen die zielunabhängige Variable richtig erklären. Um nun zu entscheiden, ob die Variable beibehalten oder entfernt werden soll, wird der Schwellenwert des Varianz-Inflationsfaktors betrachtet.

Der Wert des Varianz-Inflationsfaktors sollte wünschenswert klein sein. Dieser Wert kann jedoch dazu führen, dass die unabhängigen Variablen aus dem Datensatz entfernt werden. Daher nehmen Experten gewöhnlich einen Schwellenwert für den Varianz-Inflationsfaktor von fünf an. Das bedeutet, dass wenn der Wert einer unabhängigen Variable größer als fünf ist, wird sie entfernt. Der ideale Schwellenwert hängt jedoch von dem aufgetretenen Problem ab.

Schlussfolgerung

Der Einfluss der linearen Regression hängt von der Einfachheit der Interpretation des Modells ab. Sie werden nicht in der Lage sein, den Zweck des Modells zu finden, wenn Sie die Multikollinearität übersehen. Aus dem obigen Zusammenhang verstehen Sie die Bedeutung von Multikollinearität und wie sie die Lineare Regression beeinflusst. Außerdem können Sie jetzt die Multikollinearität für jedes Problem, das Ihnen in Zukunft begegnet, erkennen und entfernen.