Dans Probabilité et mesures, nous remplacerons toujours l’information surveillée ou une circulation ahurissante par une diffusion approximative moins difficile. KL Dissimilarity nous encourage à évaluer exactement la quantité de données que nous perdons lorsque nous choisissons une estimation.

Et si nous commencions notre enquête en jetant un coup d’œil sur un problème. Supposons que nous soyons des chercheurs de l’espace visitant une nouvelle planète éloignée et que nous ayons trouvé un type de vers rongeurs que nous aimerions contempler. Nous avons découvert que ces vers ont 10 dents, mais comme ils mangent sans cesse, un nombre important d’entre eux finissent par ne plus avoir de dents. Après avoir rassemblé de nombreux exemples, nous avons abouti dans les circonstances actuelles à l’appropriation du nombre de dents de chaque ver par la probabilité d’observation :

Bien que cette information soit incroyable, nous avons un problème. Nous sommes très loin de la Terre et le fait de renvoyer des informations chez nous est coûteux. Ce que nous devons faire, c’est réduire ces informations à un modèle simple avec seulement quelques paramètres. Un choix est de parler de la transmission des dents chez les vers comme étant seulement une appropriation uniforme. Nous savons qu’il existe 11 qualités potentielles et nous pouvons simplement reléguer la probabilité uniforme de 11 /1 à chacun de ces résultats potentiels.

Il est évident que nos informations ne sont pas transmises de manière cohérente, mais elles ne ressemblent pas non plus à une quantité excessive de circulations de base que nous connaissons. Nous pourrions également essayer de modéliser nos informations en utilisant le transport binomial. Dans ce cas, nous devrions simplement évaluer ce paramètre de probabilité de la diffusion binomiale. Nous nous rendons compte que si nous avons nn préliminaires et une probabilité de pp, le désir est alors simplement E[x] = n \cdot pE[x]=n⋅p. Pour cette situation, n = 10n=10, et le désir n’est que la moyenne de nos informations, que nous indiquerons comme étant de 5,7, donc notre meilleure mesure de p est de 0,57. Cela nous donnerait une dispersion binomiale qui ressemble à cela :

En comparant chacun de nos modèles et nos informations uniques, nous pouvons constater qu’aucun d’entre eux n’est la coordonnée idéale, mais lequel est le meilleur ?

Contrastée et la première information, les deux approximations sont évidemment restreintes. Comment pourrions-nous choisir celle à utiliser ?

Contrastée et la première information, les deux approximations sont évidemment restreintes. Comment pourrions-nous choisir celle à utiliser ?

Il existe de nombreuses erreurs de mesure, mais notre préoccupation essentielle est de limiter la mesure des données que nous devons envoyer. Ces deux modèles réduisent notre préoccupation à deux paramètres, le nombre de dents et une probabilité (cependant, nous n’avons vraiment besoin que du nombre de dents pour l’appropriation uniforme). Le meilleur essai consiste à demander quel moyen de transport protège le plus de données de notre source d’information unique. C’est là qu’intervient l’unicité de Kullback-Leibler.

L’entropie de notre dispersion

La dissimilitude de KL a ses racines dans l’hypothèse des données. L’objectif essentiel de l’hypothèse de données est d’évaluer la quantité de données contenues dans l’information. La mesure la plus significative de l’hypothèse de données est appelée entropie, régulièrement indiquée par HH. La signification de l’entropie pour une appropriation de probabilité est :

H = -\sum_{i=1}^{N} p(x_i) \cdot \text{log }p(x_i)H=-i=1​(xi)​ p(xi)

Si nous utilisons log2 pour notre comptage, nous pouvons déchiffrer l’entropie comme “le nombre de bits de base qu’il nous faudrait pour coder nos données”. Dans cette situation, les données seraient toutes les perceptions de contrôles de dents étant donné notre circulation d’observation. Compte tenu des informations que nous avons observées, notre circulation d’observation a une entropie de 3,12 bits. La quantité de bits nous révèle la tête inférieure pour le nombre de bits dont nous aurions besoin, globalement, pour coder le nombre de dents que nous verrions dans un cas isolé.

Ce que l’entropie ne nous permet pas de savoir, c’est le plan d’encodage idéal pour nous aider à accomplir cette pression. L’encodage idéal des données est un point très fascinant, mais un peu trop pour la compréhension de l’unicité de KL. L’élément clé de l’entropie est que, essentiellement, en réalisant la limite inférieure hypothétique du nombre de bits dont nous avons besoin, nous avons une approche pour évaluer précisément la quantité de données dans nos informations. Puisque nous pouvons évaluer cela, nous devons mesurer la quantité de données perdues lorsque nous substituons notre diffusion surveillée à une estimation paramétrée.

Estimation des données perdues à l’aide de la différence de Kullback-Leibler

La disparité Kullback-Leibler n’est qu’une légère altération de notre recette de l’entropie. Au lieu d’avoir simplement notre transmission de probabilité pp, nous incluons notre appropriation approximative qq. À ce stade, nous jetons un coup d’œil à la distinction des logarithmes d’estime pour chacun :

D_{KL}(p||q) = \sum_{i=1}^{N} p(x_i)\cdot (\text{log }p(x_i) – \text{log }q(x_i))DKL(p∣∣q)=i=∣q(xi)⋅(log p(xi)-log q(xi))

Au fond, ce que nous examinons avec intérêt dans la disparité de KL, c’est le désir d’un contraste logique entre la probabilité de l’information dans la première appropriation et la circulation approximative. Une fois de plus, au cas où nous penserions aussi loin que le log2, nous pouvons traduire cela par “le nombre de bits de données que nous espérons perdre”. Nous pourrions réviser notre équation jusqu’au désir :

D_{KL}(p||q) = E[\text{log } p(x) – \text{log } q(x)]D (p∣∣q)=E[log p(x)-log q(x)]

L’approche la plus typique pour voir la disparité de KL composée est la suivante :

D_{KL}(p||q) = \sum_{i=1}^{N} p(x_i)\cdot log\frac{p(x_i)}{q(x_i)}D

L’unicité de KL nous permet de déterminer avec précision la quantité de données perdues lorsque l’on fait l’approximation d’une circulation avec une autre. Et si nous retournions à nos informations pour voir à quoi ressemblent les résultats.

Regard sur nos moyens de transport approximatifs

Actuellement, nous pouvons nous sentir libres de calculer la dissimilitude du KL pour nos deux dispersions approximatives. Pour la circulation uniforme que nous trouvons :

Comme cela devrait être évident, les données perdues en utilisant la supposition binomiale sont plus importantes que l’utilisation de l’estimation uniforme. Au cas où nous aurions besoin d’en choisir une pour parler de nos perceptions, nous sommes dans une situation idéale en restant avec l’estimation uniforme.

Divergence et non distance

Il pourrait être intéressant de considérer la KL Dissimilarité comme une métrique de séparation, de toute façon nous ne pouvons pas utiliser la KL Différence pour quantifier la séparation entre deux dispersions. L’explication est que la disparité KL n’est pas symétrique. Par exemple, chaque fois que nous utilisons nos informations de surveillance comme une méthode d’approximation de l’appropriation binomiale, nous obtenons un résultat tout à fait différent :

Instinctivement, cela est de bon augure car dans chacun de ces cas, nous faisons un type d’estimation tout à fait différent.