Was sind Parameter?

Häufig verwenden wir in der KI ein Modell, um das Verfahren darzustellen, das sich in den beobachteten Informationen niederschlägt. Wir können zum Beispiel ein unregelmäßiges Holzmodell verwenden, um zu bestimmen, ob Klienten eine Mitgliedschaft bei einer Hilfeleistung fallen lassen können (bekannt als agitierendes Demonstrieren), oder wir können ein direktes Modell verwenden, um das Einkommen vorauszusehen, das für eine Organisation geschaffen wird, die sich auf den Betrag verlässt, den sie für die Werbung ausgeben können (dies wäre ein Fall eines direkten Rückfalls). Jedes Modell enthält seine eigene Anordnung von Parametern, die schließlich charakterisieren, wie das Modell aussieht.

Für ein direktes Modell können wir dies wie folgt zusammensetzen: y = mx + c. In diesem Modell könnte x für die Ausgaben für die Öffentlichkeitsarbeit sprechen und y könnte das produzierte Einkommen sein. m und c sind Parameter für dieses Modell. Die unterschiedliche Wertschätzung dieser Parameter ergibt verschiedene Linien (siehe Abbildung unten).

Parameter charakterisieren also einen Umriss für das Modell. Erst wenn explizite Qualitäten für die Parameter ausgewählt werden, erhalten wir einen Start für das Modell, das ein bestimmtes Wunder darstellt.

Natürliche Klärung der extremsten Wahrscheinlichkeitsschätzung

Die Schätzung der extremsten Wahrscheinlichkeit ist eine Technik, die Werte für die Parameter eines Modells bestimmt. Die Parameterschätzungen werden mit dem Endziel entdeckt, dass sie die Wahrscheinlichkeit verstärken, dass das durch das Modell dargestellte Verfahren die Informationen liefert, die wirklich beobachtet wurden.

Die obige Definition mag auf jeden Fall etwas obskur klingen, wie wäre es also, wenn wir einen Leitfaden erfahren, der uns dabei hilft.

Wie wäre es, wenn wir annehmen, dass wir 10 Informationen beobachtet haben, die sich auf irgendein Verfahren konzentrieren. Zum Beispiel könnte jeder Bezugspunkt für den Zeitrahmen in Sekunden sprechen, den eine Zweitbesetzung benötigt, um auf eine bestimmte Testfrage zu antworten. Diese 10 Informationsschwerpunkte erscheinen in der untenstehenden Abbildung

Wir müssen zunächst wählen, welches Modell unserer Meinung nach den Weg zur Erstellung der Informationen am besten beschreibt. Dieser Teil ist bedeutsam. Auf jeden Fall sollten wir klug darüber nachdenken, welches Modell wir verwenden. Normalerweise entsteht dies durch eine gewisse Gebietskompetenz, aber wir werden dies hier nicht untersuchen.

Für diese Informationen erwarten wir, dass das Informationszeitalter-Verfahren durch eine Gauß’sche (gewöhnliche) Verbreitung ausreichend dargestellt werden kann. Die visuelle Beurteilung der obigen Abbildung empfiehlt, dass eine Gauß’sche Verbreitung denkbar ist, da ein großer Teil der 10 Punkte in der Mitte gruppiert ist und nicht viele Richtwerte nach links und rechts zerstreut sind. (Es ist jedoch dumm, sich auf diese Art von Wahl spontan mit nur 10 Informationsschwerpunkten zu einigen, aber da ich diese Informationsschwerpunkte erstellt habe, werden wir uns damit abfinden).

Überprüfen Sie, dass die Gauß’sche Verbreitung 2 Parameter hat. Den Mittelwert, μ, und die Standardabweichung, σ. Verschiedene Schätzungen dieser Parameter führen zu verschiedenen Krümmungen (genau wie bei den Geraden oben). Wir müssen uns klarmachen, welche Biegung aller Wahrscheinlichkeit nach dafür verantwortlich war, dass die von uns beobachteten Informationsschwerpunkte gebildet wurden? (Siehe Abbildung unten). Die Schätzung der größten Wahrscheinlichkeit ist eine Strategie, die die Schätzungen von μ und σ entdeckt, die zu der Biegung führen, die am besten zu den Informationen passt.

Berechnung der Maximum-Likelihood-Schätzungen

Jetzt, da wir ein intuitives Verständnis davon haben, was die Maximum-Likelihood-Schätzung ist, können wir damit fortfahren zu lernen, wie man die Parameterwerte berechnet. Die Werte, die wir finden, werden Maximum-Likelihood-Schätzungen (MLE) genannt.

Auch dies wollen wir an einem Beispiel demonstrieren. Nehmen wir an, wir haben diesmal drei Datenpunkte und gehen davon aus, dass sie aus einem Prozess entstanden sind, der durch eine Gaußsche Verteilung adäquat beschrieben wird. Diese Punkte sind 9, 9,5 und 11. Wie berechnen wir die Maximum-Likelihood-Schätzungen der Parameterwerte der Gaußschen Verteilung μ und σ?

Was wir berechnen wollen, ist die Gesamtwahrscheinlichkeit für die Beobachtung aller Daten, d.h. die gemeinsame Wahrscheinlichkeitsverteilung aller beobachteten Datenpunkte. Dazu müssten wir einige bedingte Wahrscheinlichkeiten berechnen, was sehr schwierig werden kann. Hier werden wir also unsere erste Annahme treffen. Die Annahme ist, dass jeder Datenpunkt unabhängig von den anderen generiert wird. Diese Annahme macht die Mathematik viel einfacher. Wenn die Ereignisse (d.h. der Prozess, der die Daten erzeugt) unabhängig sind, dann ist die Gesamtwahrscheinlichkeit der Beobachtung aller Daten das Produkt der Einzelbeobachtung jedes Datenpunktes (d.h. das Produkt der marginalen Wahrscheinlichkeiten).

Die Wahrscheinlichkeitsdichte der Beobachtung eines einzelnen Datenpunktes x, der aus einer Gaußschen Verteilung erzeugt wird, ist gegeben durch

Der Semikolon, der in der Dokumentation P(x; μ, σ) verwendet wird, soll unterstreichen, dass die Bilder, die nach ihm auftauchen, Parameter der Wahrscheinlichkeitszirkulation sind. Es sollte also nicht mit einer kontingenten Wahrscheinlichkeit verwechselt werden (die normalerweise mit einer vertikalen Linie, z.B. P(A| B), angesprochen wird).

In unserem Modell ist die aggregierte (gemeinsame) Wahrscheinlichkeitsstärke der Beobachtung der drei Informationsschwerpunkte durch gegeben:

Wir müssen uns einfach die Schätzungen von μ und σ zu eigen machen, die zu der extremsten Einschätzung der obigen Artikulation führen.

Für den Fall, dass Sie die Analytik in Ihren Mathematikunterricht eingehüllt haben, wissen Sie zu diesem Zeitpunkt höchstwahrscheinlich, dass es eine Strategie gibt, die uns helfen kann, Maxima (und Minima) der Kapazitäten zu entdecken. Sie heißt Trennung. Wir sollten einfach den Untergebenen der Kapazität ausfindig machen, die untergeordnete Kapazität auf Null setzen und danach die Bedingung so modifizieren, dass der Parameter der Intrige zum Gegenstand der Bedingung wird. Mehr noch, voilà, wir werden unsere MLE Wertschätzung für unsere Parameter haben. Ich werde diese Mittel jetzt erfahren, aber ich erwarte, dass der Anwender erkennt, wie die Trennung bei normalen Kapazitäten durchgeführt werden kann. Falls Sie eine schrittweise Punkt-für-Punkt-Klärung wünschen, lassen Sie es mich an dieser Stelle einfach in den Anmerkungen wissen.