De hele tijd zullen we in Likelihood and Measurements de bekeken informatie of een verbijsterende circulatie vervangen door een minder moeilijke, benaderende verspreiding. KL Dissimilariteit moedigt ons aan om precies te meten hoeveel gegevens we verliezen als we een schatting kiezen.

Wat dacht je ervan om ons onderzoek te beginnen met een kijkje te nemen in een kwestie. Stel dat we ruimteonderzoekers zijn die een verwijderde, nieuwe planeet bezoeken en we hebben een soort knaagwormen gevonden die we graag willen overwegen. We hebben ontdekt dat deze wormen 10 tanden hebben, maar sinds ze onophoudelijk eten, ontbreekt er een aanzienlijk aantal tanden. In het kielzog van het verzamelen van tal van voorbeelden hebben we in deze huidige omstandigheden waarneembare kans op toe-eigening van het aantal tanden in elke worm:

Hoewel deze informatie ongelofelijk is, hebben we toch een beetje een probleem. We zijn ver weg van de aarde en het sturen van informatie naar huis is kostbaar. Wat we moeten doen is deze informatie terugbrengen tot een eenvoudig model met slechts een paar parameters. Een keuze is om te spreken over de overdracht van tanden in wormen als slechts een uniforme toe-eigening. We weten dat er 11 potentiële kwaliteiten zijn en we kunnen de uniforme waarschijnlijkheid van 11 /1 eenvoudigweg degraderen naar elk van deze potentiële uitkomsten.

Het is duidelijk dat onze informatie niet consequent wordt overgebracht, maar het ziet er bovendien niet overdreven uit als een basiscirculatie die we kennen. Een andere keuze die we kunnen maken is het modelleren van onze informatie met behulp van de Binomiale overdracht. Voor deze situatie moeten we eenvoudigweg die waarschijnlijkheidsparameter van de binomiale verspreiding meten. We beseffen dat op de uit kans dat we nn preliminaire en een waarschijnlijke is pp, op dat punt de wens is gewoon E [x] = n \cdot pE [x] =n⋅p. Voor deze situatie n = 10n = 10, en de wens is alleen het gemiddelde van onze informatie, die we zullen stellen is 5,7, dus onze beste maat van p is 0,57. Dat zou ons een binomale spreiding geven die hierop lijkt:

Tegenover elk van onze modellen en onze unieke informatie kunnen we zien dat geen van beide de ideale coördinaat is, maar welke is beter?

Contrasterende en de eerste informatie, uiteraard zijn de twee benaderingen beperkt. Hoe kunnen we kiezen welke we gebruiken?

Gecontrasteerd en de eerste informatie, uiteraard zijn de twee benaderingen beperkt. Hoe kunnen we kiezen welke we gebruiken?

Er zijn veel bestaande blundermetingen, maar onze essentiële zorg is het beperken van de meting van de gegevens die we moeten verzenden. Beide modellen verlagen onze zorg tot twee parameters, het aantal tanden en de waarschijnlijkheid (maar we hebben echt alleen het aantal tanden nodig voor de uniforme toe-eigening). De beste manier om dit te testen is door te vragen welke overdracht de meeste gegevens beschermt tegen onze unieke informatiebron. Dit is de plaats waar Kullback-Leibler Uniqueness binnenkomt.

De entropie van onze verspreiding

KL Dissimilariteit heeft zijn wortels in de gegevenshypothese. Het essentiële doel van de gegevenshypothese is om te evalueren hoe veel gegevens zich in de informatie bevinden. De belangrijkste meting in de gegevenshypothese heet Entropie, regelmatig aangeduid als HH. De betekenis van Entropie voor een waarschijnlijkheidstoewijzing is:

H = -\sum_{i=1}^{N} p(x_i) \cdot \cdot {log }p(x_i)H=-i=N(xi) p(xi)

 

In het geval dat we log2 gebruiken voor onze telling, kunnen we entropie ontcijferen als “het basisaantal bits dat we nodig hebben om onze gegevens te coderen”. Voor deze situatie zouden de gegevens elke perceptie van tandcontroles zijn, gezien onze waarnemingscirculatie. Gezien de informatie die we hebben bekeken, heeft onze waarschijnlijkheid overdracht een entropie van 3,12 bits. De hoeveelheid bits onthult ons het lagere aantal bits dat we nodig hebben om het aantal tanden te coderen dat we zouden zien in een solitair geval.

Wat de entropie ons niet laat weten is het ideale coderingsplan om ons te helpen bij het bereiken van deze druk. Ideale codering van gegevens is een zeer fascinerend punt, maar een beetje veel voor begrip KL uniciteit. Het belangrijkste bij Entropie is dat we in wezen de hypothetische ondergrens van het aantal bits dat we nodig hebben realiseren, en dat we een aanpak hebben om precies te evalueren hoeveel gegevens er in onze informatie zitten. Aangezien we dit kunnen evalueren, moeten we meten hoe veel gegevens verloren gaan wanneer we onze bekeken verspreiding vervangen door een geparametriseerde schatting.

Schatting van het verlies van gegevens met behulp van Kullback-Leibler Verschil

Kullback-Leibler Disparity is slechts een kleine wijziging van ons recept voor entropie. In plaats van alleen maar onze waarschijnlijkheid van overdracht pp nemen we onze benaderende toe-eigening qq op. Op dat moment nemen we een kijkje in het onderscheid van de logboekwaarden voor elk van hen:

D_{KL}(p||q) = \sum_{i=1}^{N} p(x_i)\cdot (\text{log }p(x_i) – \text{log }q(x_i))DKL(p∣∣q)=i=i(xi)-COPY4(log p(xi)-log q(xi)))

Waar we in principe naar kijken bij de KL-verschillen, is de wens om de logica van het contrast tussen de waarschijnlijkheid van informatie in de eerste toe-eigening en de approximatieve circulatie. Nogmaals, op de kans dat we denken dat we tot aan log2 dit kunnen vertalen als “welk aantal stukjes data we hopen te verliezen”. We zouden onze vergelijking kunnen herzien voor zover dat wenselijk is:

D_{KL}(p||q) = E [\text{log } p(x) – \text{log } q(x)] D (p∣∣q)=E [log p(x)-log q(x)]

 

De meer typische aanpak om KL ongelijkheid te zien samengesteld is volgens de volgende:

D_{KL}(p||q) = \sum_{i=1}^{N} p(x_i)\cdot log\frac{p(x_i)}{q(x_i)}D

Met KL uniciteit kunnen we precies vaststellen hoeveel gegevens er verloren gaan als we de ene omloop met de andere ruwen. Wat dacht je ervan om terug te keren naar onze informatie en te kijken waar de uitkomsten op lijken?

Kijkend naar onze benaderende overdrachten

Op dit moment kunnen we het verschil tussen de KL en onze twee benaderingen van de dispersies gerust in kaart brengen. Voor de uniforme circulatie vinden we:

Zoals duidelijk moet zijn, zijn de gegevens die verloren gaan door gebruik te maken van de Binomiale gok, prominenter aanwezig dan door gebruik te maken van de uniforme schatting. De kans dat we er een moeten kiezen om met onze percepties te spreken is groot, maar we bevinden ons in een ideale situatie om bij de uniforme schatting te blijven.

Divergentie niet afstand

Het zou verleidelijk kunnen zijn om KL Verschil als een scheidingsmaatstaf te beschouwen, maar we kunnen KL Verschil niet gebruiken om de scheiding tussen twee dispersies te kwantificeren. De verklaring hiervoor is dat KL Verschil niet symmetrisch is. Bijvoorbeeld, wanneer we onze bekeken informatie gebruiken als een methode om de Binomiale toe-eigening te benaderen, krijgen we een totaal andere uitkomst:

Instinctief is dit een goed voorteken, want in elk van deze gevallen doen we een heel ander soort inschatting.