Przez cały czas w Likelihood and Measurements będziemy wypierać oglądane informacje lub oszałamiający umysł obieg z mniej trudnym, zbliżonym rozpowszechnieniem. Odmienność KL zachęca nas do dokładnego zmierzenia, ile danych tracimy, gdy wybieramy szacunek.

Może zaczniemy nasze śledztwo od wzięcia na celownik. Załóżmy, że jesteśmy kosmicznymi badaczami odwiedzającymi usuniętą, nową planetę i znaleźliśmy rodzaj gryzących robaków, które chcielibyśmy rozważyć. Odkryliśmy, że te robaki mają 10 zębów, ale od momentu zjedzenia ich bez przerwy, znaczna ich liczba kończy się brakiem zębów. Po zebraniu wielu przykładów, w tych okolicznościach zaobserwowaliśmy prawdopodobieństwo zawłaszczenia liczby zębów w każdym robaku:

Chociaż te informacje są niewiarygodne, to mamy pewien problem. Jesteśmy daleko od Ziemi, a wysyłanie informacji do domu jest kosztowne. To, co musimy zrobić, to zmniejszyć te informacje do prostego modelu z zaledwie kilkoma parametrami. Jednym z wyborów jest mówienie o przenoszeniu zębów w robakach jako o jednolitym przeznaczeniu. Wiemy, że istnieje 11 potencjalnych cech i możemy po prostu zrzucić jednolite prawdopodobieństwo 11 /1 na każdy z tych potencjalnych wyników.

Oczywiście nasze informacje nie są przekazywane w sposób konsekwentny, ale dodatkowo nie wyglądają na zbyt wiele podobnych do znanych nam podstawowych obiegów. Innym wyborem, który moglibyśmy spróbować jest modelowanie naszych informacji z wykorzystaniem przekazu Binomialu. W tej sytuacji powinniśmy po prostu zmierzyć ten parametr prawdopodobieństwa rozpowszechnienia Binomialu. Zdajemy sobie sprawę, że na off szansę, że mamy nn preliminarzy i probabily jest pp, w tym momencie pragnienie jest po prostu E[x] = n \cdot pE[x]=n⋅p. Dla tej sytuacji n = 10n=10, a pragnienie jest tylko ¶redni¡ informacj¡, któr¡ podamy 5.7, wi¦c nasz najlepszy miernik p wynosi 0.57. To dałoby nam dwumianowe rozproszenie, które przypomina to:

Kontrastując każdy z naszych modeli i nasze unikalne informacje widzimy, że żaden z nich nie jest idealną współrzędną, ale który jest lepszy?

Skontrastowane i pierwsze informacje, oczywiście te dwa przybliżenia są ograniczone. Jak możemy wybrać, którą z nich wykorzystać?

Skontrastowana i pierwsza informacja, oczywiście oba przybliżenia są ograniczone. Jak możemy wybrać, którą z nich wykorzystać?

Istnieje wiele istniejących błędnych pomiarów, ale naszym podstawowym celem jest ograniczenie ilości danych, które musimy przesłać. Oba te modele zmniejszają naszą troskę do dwóch parametrów, liczby zębów i prawdopodobieństwa (jednak naprawdę potrzebujemy tylko liczby zębów do jednolitego przypisania). Najlepszą próbą jest zapytanie o to, który przekaz chroni najwięcej danych z naszego unikalnego źródła informacji. To właśnie tutaj pojawia się Kullback-Leibler Uniqueness.

Entropia naszej dyspersji

Odmienność KL ma swoje korzenie w hipotezie dotyczącej danych. Zasadniczym celem hipotezy dotyczącej danych jest ocena, jak wiele danych znajduje się w informacji. Najważniejszym pomiarem w hipotezie dotyczącej danych jest Entropia, regularnie oznaczana jako HH. Znaczenie Entropii dla zawłaszczenia prawdopodobieństwa jest następujące:

H = -\sum_{i=1}^{N} p(x_i) \i1}cdot \i1}text{log \i1}p(x_i)H=-i=1∑Np(xi) p(xi)

 

W przypadku, gdy używamy log2 do liczenia, możemy rozszyfrować entropię jako “bazową liczbę bitów, która zajmie nam zakodowanie naszych danych”. W tej sytuacji dane te byłyby każdym postrzeganiem kontroli zębów, biorąc pod uwagę nasz obieg obserwacyjny. Biorąc pod uwagę informacje, które oglądaliśmy, nasz przekaz prawdopodobieństwa ma entropię 3,12 bitów. Ilość bitów ujawnia nam tym mniej, na jaką liczbę bitów potrzebowalibyśmy w sumie zakodować liczbę zębów, które widzielibyśmy w samotnym przypadku.

To, czego entropia nie daje nam znać, to idealny plan kodowania, który pomoże nam w osiągnięciu tego ciśnienia. Idealne kodowanie danych to bardzo fascynujący punkt, jednak niecodzienny dla zrozumienia unikalność KL. Kluczową sprawą w przypadku Entropii jest to, że zasadniczo realizując hipotetyczne dolne ograniczenie liczby bitów, których potrzebujemy, mamy podejście pozwalające dokładnie ocenić, ile danych znajduje się w naszych informacjach. Ponieważ możemy to ocenić, musimy zmierzyć, jak wiele danych zostaje utraconych, gdy zastępujemy obserwowane rozpowszechnianie danych sparametryzowanym oszacowaniem.

Oszacowanie utraty danych z wykorzystaniem różnicy Kullback-Leiblera

Kullback-Leibler Disparity to tylko niewielka zmiana w naszym przepisie na entropię. Zamiast po prostu mieć nasze prawdopodobieństwa przenoszenia pp, uwzględniamy nasze przybliżone ilości środków. W tym momencie bierzemy pod uwagę rozróżnienie wartości szacunku dla każdego z kłód:

D_{KL}(p||q) = \i1}sum_{i=1}^{N} p(x_i)\i0}cdot (\i1}p(x_i) – \i0}text{log \i1}q(x_i))DKL(p∣∣q)=i=1∑Np(xi)⋅(log p(xi)-log q(xi)))

Basically, what we’re taking a gander at with the KL disparity is the desire for the log contrast between the likelihood of information in the first appropriation with the approximating circulation. Po raz kolejny, na marginesie prawdopodobieństwa, że myślimy aż do log2, możemy przetłumaczyć to jako “jaką liczbę bitów danych mamy nadzieję stracić”. Moglibyśmy zrewidować nasze równanie, jeśli chodzi o pragnienie:

D_{KL}(p||q) = E[\i0}text{log } p(x) – \i0}text{log } q(x)]D (p∣∣q)=E[log p(x)-log q(x)]

 

Bardziej typowe podejście do postrzegania różnic KL składa się z następujących elementów:

D_{KL}(p||q) = \i1}sum_{i=1}^{N} p(x_i)\i0}cdot log\frac{p(x_i)}{q(x_i)}D

Dzięki unikalności KL możemy dokładnie określić, ile danych jest traconych, gdy zgrubiamy jeden obieg z drugim. A może wrócimy do naszych informacji i zobaczymy, jak wyglądają wyniki.

Patrząc na nasze przybliżone transfery

Obecnie możemy śmiało określić odmienność KL dla naszych dwóch zbliżonych dyspersji. Dla jednolitego obiegu znajdujemy:

Jak powinno być oczywiste, dane utracone przy użyciu Binomialu są bardziej widoczne niż przy użyciu jednolitego oszacowania. Na wypadek gdybyśmy musieli wybrać jedną z nich, aby przemówić do naszych postrzegań, znajdujemy się w idealnej sytuacji pozostając przy jednolitym oszacowaniu.

Dywergencja, a nie dystans.

Może być kuszące rozważać KL odmienność jako metrykę separacji, w każdym razie nie możemy użyć KL odmienność do ilościowego określenia separacji pomiędzy dwoma dyspersjami. Wyjaśnienie tego jest takie, że KL Disparity nie jest symetryczne. Na przykład, kiedykolwiek wykorzystaliśmy naszą obserwowaną informację jako metodę przybliżenia Binomialu, otrzymujemy zupełnie inny wynik:

Instynktownie to wróży i w każdym z tych przypadków robimy zupełnie inny rodzaj oszacowania.