A todo momento, em Probabilidade e Medidas, vamos suplantar a informação observada ou uma circulação alucinante com uma divulgação menos difícil e aproximada. A Dissimilaridade da KL nos encoraja a medir exatamente quantos dados perdemos quando escolhemos uma estimativa.

Que tal começarmos nossa investigação dando uma olhada em um assunto. Suponhamos que somos pesquisadores espaciais visitando um planeta novo e removido e encontramos um tipo de minhoca roedora que gostaríamos de contemplar. Descobrimos que esses vermes têm 10 dentes, mas como de todos os que se alimentam incessantemente, um número significativo deles acaba faltando dentes. Na esteira da coleta de inúmeros exemplos, temos resultado nessas atuais circunstâncias a probabilidade observacional de apropriação do número de dentes em cada verme:

Embora esta informação seja incrível, temos um pouco de problema. Estamos muito longe da Terra e enviar informações de volta para casa é caro. O que precisamos fazer é diminuir esta informação para um modelo simples, com apenas alguns parâmetros. Uma opção é falar com o transporte de dentes em minhocas como apenas uma apropriação uniforme. Sabemos que existem 11 qualidades potenciais e podemos simplesmente relegar a probabilidade uniforme de 11 /1 para cada um desses resultados potenciais.

Obviamente, nossas informações não são transmitidas de forma consistente, porém, além disso, não se parecem com nenhuma circulação básica que conhecemos. Outra escolha que poderíamos tentar é modelar nossas informações utilizando o binômio transporte. Para esta situação devemos simplesmente medir esse parâmetro de probabilidade de disseminação do Binomial. Percebemos que na hipótese remota de termos nn preliminares e uma probabilidade é pp, nesse ponto o desejo é simplesmente E[x] = n \cdot pE[x]=n⋅p. Para esta situação n = 10n=10, e o desejo é apenas o meio das nossas informações, que vamos afirmar que é 5,7, portanto o nosso melhor indicador de p é 0,57. Isso nos daria uma dispersão binomal que se assemelha a isso:

Contrastando cada um de nossos modelos e nossas informações únicas, podemos ver que nenhum dos dois é a coordenada ideal, mas qual é a melhor?

Contrastado e a primeira informação, obviamente as duas aproximações são restritas. Como podemos escolher qual delas devemos utilizar?

Contrastado e a primeira informação, obviamente as duas aproximações são restritas. Como podemos escolher qual delas devemos utilizar?

Existem muitas medidas errôneas, mas nossa preocupação essencial é limitar a medida dos dados que precisamos enviar. Ambos os modelos diminuem nossa preocupação para dois parâmetros, o número de dentes e a probabilidade (no entanto, realmente só precisamos do número de dentes para a apropriação uniforme). O melhor julgamento é perguntar qual o transporte que protege mais os dados da nossa fonte única de informação. Este é o lugar onde entra a Kullback-Leibler Uniqueness.

A entropia da nossa dispersão

KL Dissimilaridade tem suas raízes em hipóteses de dados. O objetivo essencial da hipótese de dados é avaliar o quanto muitos dados estão na informação. A medida mais significativa na hipótese de dados é chamada Entropia, regularmente indicada como HH. O significado da Entropia para uma apropriação de probabilidade é:

H = -\sum_{i=1}^{N} p(x_i) \cdot \text{log }p(x_i)H=-i=​(xi)​ p(xi)

Caso utilizemos log2 para nossa contagem, podemos decifrar a entropia como “o número base de bits que nos levaria para codificar nossos dados”. Para esta situação, os dados seriam toda percepção de verificação dos dentes dada a nossa circulação observacional. Dadas as informações que temos observado, nossa probabilidade de transmissão tem uma entropia de 3,12 bits. A quantidade de bits nos revela a cabeça inferior para qual número de bits precisaríamos, em geral, para codificar o número de dentes que veríamos em um caso solitário.

O que a entropia não nos permite saber é o plano de codificação ideal para nos ajudar a cumprir essa pressão. A codificação ideal de dados é um ponto muito fascinante, porém um pouco para a compreensão da singularidade KL. O fundamental com a Entropia é que, essencialmente percebendo o limite inferior hipotético sobre o número de bits que precisamos, temos uma abordagem para avaliar com precisão a quantidade de dados que estão em nossas informações. Como podemos avaliar isso, precisamos medir como muitos dados são perdidos quando substituímos a nossa disseminação assistida por uma estimativa parametrizada.

Estimando a perda de dados utilizando a diferença Kullback-Leibler

A Disparidade Kullback-Leibler é apenas uma pequena alteração da nossa receita de entropia. Ao invés de simplesmente termos nossa probabilidade de transmissão pp incluímos nossa qq. de apropriação aproximada. Nesse ponto, nós nos damos uma olhada na distinção da estima dos toros para cada um:

D_{KL}(p||q) = \sum_{i=1}^{N} p(x_i)\cdot (\text{log }p(x_i) – \text{log }q(x_i))DKL(p∣∣q)=i=​i(xi)⋅(log p(xi)-log q(xi))

Basicamente, o que estamos vendo com a disparidade KL é o desejo do contraste logarítmico entre a probabilidade de informação na primeira apropriação com a circulação aproximada. Mais uma vez, na hipótese remota que pensamos até log2, podemos traduzir isso como “que número de bits de dados esperamos perder”. Poderíamos rever nossa equação até onde desejamos:

D_{KL}(p||q) = E[\text{log } p(x) – \text{log } q(x)]D (p∣∣q)=E[log p(x)-log q(x)]

A abordagem mais típica para ver a disparidade KL composta é a seguinte:

D_{KL}(p||q) = \sum_{i=1}^{N} p(x_i)\cdot log\frac{p(x_i)}{q(x_i)}D

Com a singularidade KL podemos verificar com precisão a quantidade de dados que se perdem quando nos aproximamos de uma circulação com outra. Que tal voltarmos às nossas informações e vermos como se assemelham os resultados.

Olhando para nossas aproximações de transporte

Atualmente, podemos nos sentir livres para descobrir as diferenças de KL para as nossas duas dispersões aproximadas. Para a circulação uniforme, encontramos:

Como deve ser óbvio, os dados perdidos pela utilização do palpite Binomial são mais proeminentes do que a utilização da estimativa uniforme. Na hipótese remota de que precisamos escolher um para falar com nossas percepções, estamos em uma situação ideal ficando com a estimativa Uniforme.

Divergência não distância

Pode ser tentador considerar a Dissimilaridade KL como uma métrica de separação, de qualquer forma não podemos utilizar a Diferença KL para quantificar a separação entre duas dispersões. A explicação por trás disso é que a Disparidade KL não é simétrica. Por exemplo, sempre que utilizamos nossas informações observadas como um método para aproximar a apropriação binomial, obtemos um resultado totalmente diferente:

Instintivamente isso é um bom presságio, pois em cada um desses casos estamos fazendo um tipo de estimativa totalmente diferente.