In Likelihood and Measurements ersetzen wir ständig beobachtete Informationen oder eine verwirrende Zirkulation durch eine weniger schwierige, annähernde Verbreitung. KL Unähnlichkeit ermutigt uns, genau abzuschätzen, wie viele Daten wir verlieren, wenn wir eine Schätzung auswählen.

Wie wäre es, wenn wir unsere Untersuchung damit beginnen, einen Blick auf ein Thema zu werfen. Nehmen wir an, wir sind Weltraumforscher, die einen entfernten, neuen Planeten besuchen, und wir haben eine Art von nagenden Würmern gefunden, die wir gerne betrachten würden. Wir haben herausgefunden, dass diese Würmer 10 Zähne haben, aber da von all dem unaufhörlichen Fressen eine beträchtliche Anzahl von ihnen fehlende Zähne hat. Nachdem wir zahlreiche Beispiele gesammelt haben, haben wir unter den gegenwärtigen Umständen eine beobachtete wahrscheinliche Aneignung der Anzahl der Zähne in jedem Wurm festgestellt:

Diese Informationen sind zwar unglaublich, aber wir haben ein gewisses Problem. Wir sind weit von der Erde entfernt, und es ist kostspielig, Informationen nach Hause zu schicken. Was wir tun müssen, ist, diese Informationen auf ein einfaches Modell mit nur ein paar Parametern zu reduzieren. Eine Möglichkeit besteht darin, von der Übertragung von Zähnen in Würmern nur als eine einheitliche Aneignung zu sprechen. Wir wissen, dass es 11 potenzielle Qualitäten gibt, und wir können die einheitliche Wahrscheinlichkeit von 11 /1 für jedes dieser potenziellen Ergebnisse einfach zurückstufen.

Offensichtlich werden unsere Informationen nicht einheitlich vermittelt, aber sie sehen auch nicht übermäßig nach den uns bekannten Grundzirkulationen aus. Eine andere Möglichkeit, die wir versuchen könnten, ist, unsere Informationen mit Hilfe der Binomialübertragung zu modellieren. Für diese Situation sollten wir einfach diesen Wahrscheinlichkeitsparameter der binomialen Verbreitung abschätzen. Uns ist klar, dass für den unwahrscheinlichen Fall, dass wir nn Vorläufe haben und die Wahrscheinlichkeit pp ist, an diesem Punkt der Wunsch einfach E[x] = n \cdot pE[x]=n⋅p lautet. Für diese Situation ist n = 10n = 10, und das Begehren ist nur der Mittelwert unserer Information, den wir mit 5,7 angeben werden, so dass unser bester Maßstab für p 0,57 ist. Das würde uns eine binomale Dispersion ergeben, die dieser ähnelt:

Wenn wir jedes unserer Modelle und unsere einzigartigen Informationen einander gegenüberstellen, können wir feststellen, dass keines der beiden Modelle die ideale Koordinate ist, doch welches ist besser?

Kontrastiert und die erste Information, offensichtlich sind die beiden Näherungen eingeschränkt. Wie könnten wir auswählen, welche wir verwenden wollen?

Kontrastiert und die erste Information, offensichtlich sind die beiden Näherungen eingeschränkt. Wie könnten wir auswählen, welche wir verwenden wollen?

Es gibt bereits eine Vielzahl von Fehlmessungen, aber unser Hauptanliegen ist es, das Maß an Daten, das wir senden müssen, zu begrenzen. Beide Modelle reduzieren unsere Sorge auf zwei Parameter, die Anzahl der Zähne und die Wahrscheinlichkeit (aber wir brauchen wirklich nur die Anzahl der Zähne für die einheitliche Aneignung). Der beste Versuch ist die Frage, welche Übertragung die meisten Daten aus unserer einzigartigen Informationsquelle schützt. Hier kommt die Kullback-Leibler-Einzigartigkeit ins Spiel.

Die Entropie unserer Dispersion

Die KL-Unähnlichkeit hat ihre Wurzeln in der Datenhypothese. Das wesentliche Ziel der Datenhypothese besteht darin, zu bewerten, wie viele Daten in der Information enthalten sind. Die signifikanteste Messung in der Datenhypothese wird Entropie genannt, regelmäßig als HH angegeben. Die Bedeutung der Entropie für eine Wahrscheinlichkeitsaneignung ist:

H = -\sum_{i=1}^{N} p(x_i) \cdot \text{log }p(x_i)H=-i=​N(xi)​ p(xi)

Für den Fall, dass wir log2 für unsere Zählung verwenden, können wir die Entropie entziffern als “die Basiszahl der Bits, die wir für die Verschlüsselung unserer Daten benötigen würden”. Für diese Situation wären die Daten jede Wahrnehmung von Zahnkontrollen angesichts unserer Beobachtungszirkulation. Angesichts der Informationen, die wir beobachtet haben, hat unsere Wahrscheinlichkeitsübertragung eine Entropie von 3,12 Bits. Die Anzahl der Bits verrät uns, wie viele Bits wir insgesamt benötigen würden, um die Anzahl der Zähne zu kodieren, die wir in einem einzelnen Fall sehen würden.

Was uns die Entropie nicht wissen lässt, ist der ideale Verschlüsselungsplan, der uns helfen soll, diesen Druck zu bewältigen. Die ideale Kodierung von Daten ist ein sehr faszinierender Punkt, allerdings ein bisschen viel für das Verständnis der KL-Eindeutigkeit. Das Entscheidende bei der Entropie ist, dass wir im Wesentlichen die hypothetische Untergrenze für die Anzahl der Bits, die wir benötigen, realisieren und einen Ansatz haben, um genau zu bewerten, wie viele Daten in unseren Informationen enthalten sind. Da wir dies auswerten können, müssen wir messen, wie viele Daten verloren gehen, wenn wir unsere beobachtete Verbreitung durch eine parametrisierte Schätzung ersetzen.

Schätzung von Datenverlusten unter Verwendung der Kullback-Leibler-Differenz

Die Kullback-Leibler-Disparität ist nur eine geringfügige Änderung unseres Rezeptes für Entropie. Anstatt einfach unsere Wahrscheinlichkeitsübertragung pp zu haben, schließen wir unsere approximierende Aneignung qq ein. An diesem Punkt werfen wir einen Blick auf die Unterscheidung der logarithmischen Wertschätzungen für jeden einzelnen:

D_{KL}(p||q) = \sum_{i=1}^{N} p(x_i)\cdot (\text{log }p(x_i) – \text{log }q(x_i))DKL(p∣∣q)=i=​N(xi)⋅(log p(xi)-log q(xi))

Im Grunde genommen ist das, was wir uns mit der KL-Disparität anschauen, der Wunsch nach dem logarithmischen Kontrast zwischen der Wahrscheinlichkeit von Informationen in der ersten Aneignung und der annähernden Zirkulation. Noch einmal, für den unwahrscheinlichen Fall, dass wir bis zu log2 denken, können wir dies übersetzen als “welche Anzahl von Datenbits wir zu verlieren hoffen”. Wir könnten unsere Gleichung so weit wie gewünscht revidieren:

D_{KL}(p||q) = E[\text{log } p(x) – \text{log } q(x)]D (p∣∣q)=E[log p(x)-log q(x)]

Der typischere Ansatz für die Zusammensetzung der KL-Disparität ist der folgende:

D_{KL}(p||q) = \sum_{i=1}^{{N} p(x_i)\cdot log\frac{p(x_i)}{q(x_i)}D

Mit der KL-Einzigartigkeit können wir genau feststellen, wie viele Daten verloren gehen, wenn wir eine Zirkulation mit einer anderen rauhen. Wie wäre es, wenn wir zu unseren Informationen zurückkehren und sehen, wie die Ergebnisse aussehen.

Ein Blick auf unsere annähernden Übermittlungen

Gegenwärtig können wir die KL-Unähnlichkeit für unsere beiden annähernden Streuungen frei bestimmen. Für die gleichmäßige Zirkulation finden wir:

Wie offensichtlich sein sollte, sind die Daten, die durch die Verwendung der Binomialschätzung verloren gehen, prominenter als bei der Verwendung der einheitlichen Schätzung. Für den unwahrscheinlichen Fall, dass wir einen auswählen müssen, um unsere Wahrnehmungen anzusprechen, sind wir in einer idealen Situation, wenn wir bei der einheitlichen Schätzung bleiben.

Divergenz statt Distanz

Es mag verlockend sein, die KL-Unähnlichkeit als Trennungsmetrik zu betrachten, jedenfalls können wir die KL-Differenz nicht dazu verwenden, die Trennung zwischen zwei Dispersionen zu quantifizieren. Die Erklärung dahinter ist, dass die KL-Differenz nicht symmetrisch ist. Wann immer wir zum Beispiel unsere beobachteten Informationen als Methode zur Annäherung an die binomiale Aneignung verwenden, erhalten wir ein völlig anderes Ergebnis:

Das verheißt instinktiv Gutes, denn in jedem dieser Fälle nehmen wir eine ganz andere Art von Schätzungen vor.