Per tutto il tempo in Likelihood and Measurements soppianteremo le informazioni guardate o una circolazione sbalorditiva con una diffusione meno difficile e approssimativa. KL Dissimilarity ci incoraggia a valutare esattamente quanti dati perdiamo quando scegliamo una stima.

Che ne dite di iniziare la nostra indagine dando un’occhiata a un problema? Supponiamo di essere ricercatori spaziali che visitano un nuovo pianeta rimosso e di aver trovato un tipo di vermi rosicchiatori che ci piacerebbe contemplare. Abbiamo scoperto che questi vermi hanno 10 denti, ma di tutti quelli che mangiano senza sosta, un numero significativo di essi finisce per perdere i denti. Sulla scia della raccolta di numerosi esempi, abbiamo portato a queste circostanze attuali, osservando la probabilità di appropriazione del numero di denti in ogni verme:

Anche se queste informazioni sono incredibili, abbiamo qualche problema. Siamo molto lontani dalla Terra e inviare informazioni a casa è costoso. Quello che dobbiamo fare è ridurre queste informazioni a un modello semplice con solo un paio di parametri. Una scelta è quella di parlare del trasporto dei denti nei vermi come di un’appropriazione uniforme. Sappiamo che ci sono 11 qualità potenziali e possiamo semplicemente relegare la probabilità uniforme di 11 /1 a ciascuno di questi potenziali risultati.

Ovviamente le nostre informazioni non vengono trasmesse in modo coerente, ma non assomigliano in modo eccessivo a quelle di base che conosciamo. Un’altra scelta che potremmo tentare è quella di modellare le nostre informazioni utilizzando il trasporto binomiale. Per questa situazione dovremmo semplicemente misurare il parametro di probabilità della diffusione binomiale. Ci rendiamo conto che nella remota possibilità di avere nn preliminari e una probabilità è pp, a quel punto il desiderio è semplicemente E[x] = n \cdot pE[x]=n⋅p. Per questa situazione n = 10n=10, e il desiderio è solo la media delle nostre informazioni, che diremo essere 5,7, quindi il nostro miglior indicatore di p è 0,57. Questo ci darebbe una dispersione binomica che assomiglia a questa:

A differenza di tutti i nostri modelli e delle nostre informazioni uniche, possiamo constatare che nessuno dei due è la coordinata ideale, ma qual è migliore?

Contrastati e le prime informazioni, ovviamente le due approssimazioni sono limitate. Come possiamo scegliere quale utilizzare?

Contrastati e le prime informazioni, ovviamente le due approssimazioni sono limitate. Come possiamo scegliere quale utilizzare?

Esistono già molte misurazioni errate, ma la nostra preoccupazione essenziale è quella di limitare la misura dei dati da inviare. Entrambi questi modelli riducono la nostra preoccupazione a due parametri, il numero di denti e la probabilità (tuttavia abbiamo veramente bisogno solo del numero di denti per l’appropriazione uniforme). La prova migliore è quella di chiedere quale trasmissione protegga il maggior numero di dati dalla nostra fonte di informazioni unica. Questo è il posto in cui entra in gioco l’unicità di Kullback-Leibler.

L’entropia della nostra dispersione

KL Dissimilarity ha le sue radici nell’ipotesi dei dati. L’obiettivo essenziale dell’ipotesi dei dati è quello di valutare come molti dati sono presenti nelle informazioni. La misurazione più significativa nell’ipotesi dei dati è chiamata Entropia, regolarmente indicata come HH. Il significato di Entropia per un’appropriazione di probabilità è:

H = -sum_{i=1}^{N} p(x_i) \cdot \cdot \text{log }p(x_i)H=-i=1​(xi)⋅log p(xi)

Nel caso in cui utilizziamo log2 per il nostro conteggio, possiamo decifrare l’entropia come “il numero base di bit che ci servirebbe per codificare i nostri dati”. Per questa situazione, i dati sarebbero ogni percezione dei controlli dei denti data la nostra circolazione osservazionale. Date le informazioni che abbiamo osservato, la nostra trasmissione di probabilità ha un’entropia di 3,12 bit. La quantità di bit ci rivela il numero inferiore di bit di cui avremmo bisogno, nel complesso, per codificare il numero di denti che vedremmo in un caso isolato.

Ciò che l’entropia non ci fa sapere è il piano di codifica ideale per aiutarci a realizzare questa pressione. La codifica ideale dei dati è un punto molto affascinante, anche se un po’ troppo per la comprensione KL unicità. La cosa fondamentale con l’entropia è che essenzialmente realizzando l’ipotetico limite inferiore sul numero di bit di cui abbiamo bisogno, abbiamo un approccio per valutare con precisione quanti dati sono nelle nostre informazioni. Poiché possiamo valutare questo, dobbiamo misurare come molti dati vanno persi quando sostituiamo la nostra diffusione osservata con una stima parametrizzata.

Stima dei dati persi utilizzando la differenza Kullback-Leibler

Kullback-Leibler Disparity è solo una leggera alterazione della nostra ricetta dell’entropia. Invece di avere semplicemente la nostra probabilità di trasmettere pp includiamo la nostra appropriazione approssimativa qq. A quel punto diamo un’occhiata alla distinzione delle stime dei tronchi per ciascuno:

D_{KL}(p||q) = \sum_{i=1}^{N} p(x_i)\cdot (\text{log }p(x_i) – \text{log }q(x_i))DKL(p∣∣q)=i=1​(xi)⋅(log p(xi)-log q(xi))

In sostanza, ciò che stiamo esaminando con la disparità di KL è il desiderio di un contrasto logico tra la probabilità di informazioni nella prima appropriazione e la circolazione approssimativa. Ancora una volta, nella remota possibilità che pensiamo fino a log2 possiamo tradurlo come “quale numero di bit di dati speriamo di perdere”. Potremmo rivedere la nostra equazione fino al desiderio:

D_{KL}(p||q) = E[\text{log } p(x) – \text{log } q(x)]D (p∣∣q)=E[log p(x)-log q(x)]

L’approccio più tipico per vedere la disparità KL composta è il seguente:

D_{KL}(p||q) = \sum_{i=1}^{N} p(x_i)\cdot log\frac{p(x_i)}{q(x_i)}D

Con l’unicità di KL possiamo accertare con precisione la quantità di dati che si perde quando si approssima una circolazione con un’altra. Che ne dite di tornare alle nostre informazioni e vedere quali sono i risultati?

Guardando i nostri trasporti approssimativi

Attualmente possiamo sentirci liberi di calcolare la dissimiglianza del KL per le nostre due dispersioni approssimative. Per la circolazione uniforme che troviamo:

Come dovrebbe essere ovvio, i dati persi utilizzando l’ipotesi binomiale sono più importanti rispetto alla stima uniforme. Nella remota possibilità di doverne scegliere una per parlare alle nostre percezioni, ci troviamo in una situazione ideale restando con la stima uniforme.

Divergenza non distanza

Potrebbe essere allettante considerare la Dissimilarità KL come una metrica di separazione, tuttavia non possiamo utilizzare la Differenza KL per quantificare la separazione tra due dispersioni. La spiegazione alla base di questo è che KL Disparità non è simmetrica. Per esempio, ogni volta che utilizziamo le informazioni osservate come metodo per approssimare l’appropriazione binomiale otteniamo un risultato completamente diverso:

Istintivamente questo è di buon auspicio, così come in ognuno di questi casi stiamo facendo un tipo di stima completamente diverso.