Als Datenwissenschaftler sollten Sie die richtigen Techniken verstehen, um den Funktionsmechanismus eines Modells zu interpretieren. Die Interpretation ist ein wesentlicher Aspekt der Datenwissenschaft. Jedes Mal, wenn Sie ein Modell mit genauen und beeindruckenden Ergebnissen erstellen, sollten Sie wissen, wie der Mechanismus funktioniert. Viele Leute generieren ein Modell durch Kodierung, aber sie haben keine Ahnung, wie die Codes das Modell erstellen und es funktionieren lassen.

Ein Beispiel: Sie erstellen ein Modell, das Ihnen hilft, die Aktienkurse vorherzusagen. Sie stellen fest, dass die Aktienkurse über Nacht abnormal ansteigen. Dies könnte aus mehreren Gründen geschehen. Daher können Sie die Maximum-Likelihood-Schätzung verwenden, um die Wahrscheinlichkeit des Problems mit der höchsten Wahrscheinlichkeit zu finden. Viele Fachleute aus verschiedenen Bereichen nutzen dieses Tool für Satellitenaufnahmen, MRTs und viele andere.
In diesem Handbuch werden Sie die Maximum-Likelihood-Schätzung eingehend kennenlernen und erfahren, wie Sie dieses Tool für Ihr Modell implementieren können. Also los geht’s.

Maximum-Likelihood-Schätzung

Die Maximum-Likelihood-Schätzung ist eine Methode, um statistische Lösungen für Probleme im Zusammenhang mit dem Machine-Learning-Modell zu finden. Es gibt Ihnen die Möglichkeit, Parameter zu setzen und die Likelihood-Schätzung zu maximieren. Mit dieser Technik können Sie die Ausgabe des Modells aus den beobachteten Daten annehmen. Die obige Definition der Maximum-Likelihood-Schätzung bedeutet, dass wir, um ein Modell zu erstellen, Folgendes tun sollten:
1. Bereiten Sie ein Modell vor, das Ihre Daten umfasst. Sie können das Modell als einen datenerzeugenden Prozess bezeichnen.
2. Die Fähigkeit haben, die Daten aus dem Modell zu erhalten und die Likelihood-Funktion abzuleiten.
Nachdem Sie die Likelihood-Funktion erhalten haben, werden Sie erkennen, dass Maximum Likelihood ein einfaches Optimierungsproblem ist.

Beziehung zum maschinellen Lernen

Die angewandten Probleme des maschinellen Lernens und der Dichteschätzung stehen in direkter Verbindung zueinander. Es ist möglich, Probleme im Zusammenhang mit dem Modell des maschinellen Lernens als Wahrscheinlichkeitsdichteschätzung zu betrachten. Bei der Wahl des Modells und seiner Parameter sollte man sich auf die Modellierungshypothese h und das Problem beziehen, h zu finden, das die Daten X besser erklärt.
– P(X; h)
Um nun die Likelihood-Funktion zu maximieren, müssen wir die Modellierungshypothese identifizieren.
– L(X; h) maximieren
Oder wir können es erweitern als:
– maximize sum i to n log(P(xi ; h))
Folglich wird die Wahrscheinlichkeitsdichte des Datensatzes geschätzt. Diese Technik wird meist in unüberwachten maschinellen Lernmodellen verwendet. Sie können Maximum-Likelihood-Schätzung für Clustering-Algorithmen verwenden.

Maximum-Likelihood-Schätzung und Clustering-Algorithmen

Sie können die Maximum-Likelihood-Schätzung effektiv für überwachte maschinelle Lernmodelle verwenden. Wir können diese Methode für die Daten anwenden, die Eingabe- und Ausgabevariablen enthalten. Die Ausgabevariablen wären numerische Werte, und die Klassifizierung und prädiktive Regressionsmodellierung wird das Klassenlabel beinhalten.
Die Maximum-Likelihood-Schätzung ist die bedingte Wahrscheinlichkeit, die aus der Ausgabe (y) geschätzt wird, während die Eingabe (X) und die Modellierungshypothese (h) ist.
– L(y|X; h) maximieren
Oder, wir können es erweitern als:
– maximiere Summe i bis n log(P(yi|xi; h))
Wenn Ihr Ziel darin besteht, das y in Abhängigkeit vom x vorherzusagen, können Sie den Maximum-Likelihood-Schätzer verwenden und die bedingte Wahrscheinlichkeit schätzen durch:
P(y|x ; theta)
Die meisten überwachten Modelle basieren auf diesem Schätzverfahren, so dass es eine häufige Situation ist. Das bedeutet, dass die Maximum-Likelihood-Schätzung bei der Dichteschätzung und beim Finden eines überwachten Modells und seiner Parameter helfen wird. Daher arbeitet diese Technik als Grundlage der linearen Modellierungstechnik, wie z. B.:
– Logistische Regression, die bei der binären Klassifizierung hilft
– Lineare Regression, die bei der Vorhersage eines numerischen Wertes hilft.
Bei der logistischen Regression trennt das Modell die Klassen, indem es Sätze von Koeffizienten einbezieht und diese als Linie definiert. Dieses Problem kann nicht analytisch gelöst werden, sondern durch die Verwendung eines effizienten Optimierungsalgorithmus. Zu den Beispielen gehören der BFGS-Algorithmus oder Varianten.
Wenn wir eine lineare Regression betrachten, wird das Modell Koeffizientensätze enthalten, die es als eine Linie definieren. Sie können dieses Problem mit analytischen Lösungen lösen, z. B. mit Hilfe der linearen Algebra.
Ein großer Vorteil der Maximum-Likelihood-Schätzung beim maschinellen Lernen ist, dass sie die Qualität des Modells verbessert, indem sie die Datensatzgröße und die Qualität des Schätzers erhöht.

Wie implementiert man die Maximum-Likelihood-Schätzung in Python?

Sie können den Prozess vereinfachen, indem Sie die Maximum-Likelihood-Schätzung in Ihr maschinelles Lernprojekt implementieren. Um das zu erreichen, können Sie zahlreiche mathematische Techniken und Ansätze verwenden. Im Folgenden finden Sie einen Ansatz, um Ihr Modell für die Maximum-Likelihood-Schätzung zu programmieren

Schritt 1: Importieren der Bibliotheken in das Modell

Importieren Sie alle folgenden Bibliotheken in das Modell:
import NumPy as np

import pandas as PD
import matplotlib pyplot as plt
import seaborn as sns
from scipy.optimize importieren minimieren
import scipy.stats as stats

import pymc3 as pm3
import numdifftools as ndt
import statsmodels.api as sm
Nun importieren Sie GenericLikelihoodModel from statsmodels.base.model

Schritt 2: Generierung der Daten

N = 1000
x = np.linspace(0,200,N)
e = np.random.normal(loc = 0.0, scale = 5.0, size = N)
y = 3*x + e

df = pd.DataFrame({‘y’:y, ‘x’:x})
df[‘constant’] = 1

Schritt 3: Visualisierung des Plots

Verwenden Sie den folgenden Referenzcode, um das Diagramm darzustellen:
sns.regplot(df.x, df.y)

Schritt 4: Analysieren der Daten

Sie können die Daten analysieren, indem Sie die folgenden Daten mit der OLS-Linie und den Konfidenzintervallen plotten

Schritt 5: Modellierung der OLS mit Statsmodels

Da es sich bei der erstellten Regression um kontinuierliche Daten handelt, können Sie die Log-Likelihood und die Koeffizienten mit sm.OLS berechnen.
Merkmale und Ziel aufteilen
X = df[[‘Konstante’, ‘x’]]
Modell anpassen und zusammenfassen
sm.OLS(y,X).fit().summary()

Fazit

Die Maximum-Likelihood-Schätzung ist eine einzigartige und nützliche Technik, die Ihnen hilft, die Parameter des Datensatzes oder der Verteilung aus dem Datensatz zu schätzen. Sie können das Tool für eine begrenzte Populationsstichprobe verwenden oder Mittel- und Varianzwerte ermitteln. In der obigen Anleitung haben wir verstanden, was die Maximum-Likelihood-Schätzung ist und wie Sie diese Technik für ein Machine-Learning-Modell implementieren können.