Todo el tiempo en Probabilidad y Medidas suplantaremos la información vigilada o las circulaciones alucinantes con una difusión menos difícil y aproximada. La Disimilitud de KL nos anima a medir exactamente cuántos datos perdemos cuando elegimos una estimación.

¿Qué tal si empezamos nuestra investigación echando un vistazo a un asunto. Supongamos que somos investigadores espaciales visitando un nuevo y lejano planeta y que hemos encontrado un tipo de gusanos roedores que nos gustaría contemplar. Hemos descubierto que estos gusanos tienen 10 dientes, pero como comen sin cesar, un número significativo de ellos terminan perdiendo dientes. Tras reunir numerosos ejemplos, hemos conseguido que en las presentes circunstancias se observe la probabilidad de apropiación del número de dientes de cada gusano:

Aunque esta información es increíble, tenemos un problema. Estamos muy lejos de la Tierra y enviar información a casa es costoso. Lo que necesitamos hacer es reducir esta información a un modelo sencillo con sólo un par de parámetros. Una opción es hablar del transporte de dientes en los gusanos como sólo una apropiación uniforme. Sabemos que hay 11 cualidades potenciales y podemos simplemente relegar la probabilidad uniforme de 11 /1 a cada uno de estos resultados potenciales.

Obviamente nuestra información no es transmitida de manera consistente, sin embargo no se parece en exceso a ninguna de las circulaciones básicas que conocemos. Otra opción que podríamos intentar es modelar nuestra información utilizando el transporte del Binomio. Para esta situación deberíamos simplemente medir ese parámetro de probabilidad de la difusión del Binomio. Nos damos cuenta de que en la remota posibilidad de que tengamos nn preliminares y una probabilidad es pp, en ese punto el deseo es simplemente E[x] = n \cdot pE[x]=n⋅p. Para esta situación n = 10n=10, y el deseo es sólo la media de nuestra información, que declararemos es 5,7, por lo que nuestro mejor indicador de p es 0,57. Eso nos daría una dispersión binómica que se asemeja a esto:

Contrastando cada uno de nuestros modelos y nuestra información única podemos ver que ninguno de los dos es la coordenada ideal, sin embargo, ¿cuál es mejor?

Contrastada y la primera información, obviamente las dos aproximaciones están restringidas. ¿Cómo podríamos elegir cuál utilizar?

Contrastada y la primera información, obviamente las dos aproximaciones están restringidas. ¿Cómo podríamos elegir cuál utilizar?

Existen muchas mediciones erróneas, pero nuestra preocupación esencial es limitar la medida de los datos que necesitamos enviar. Ambos modelos reducen nuestra preocupación a dos parámetros, el número de dientes y la probabilidad (sin embargo, realmente sólo necesitamos el número de dientes para la apropiación uniforme). El mejor ensayo de lo que es mejor es preguntar qué medio de transporte protege la mayoría de los datos de nuestra única fuente de información. Aquí es donde entra en juego la singularidad de Kullback-Leibler.

La entropía de nuestra dispersión

La disimilitud de KL tiene sus raíces en la hipótesis de los datos. El objetivo esencial de la hipótesis de datos es evaluar cómo muchos datos están en la información. La medida más significativa en la hipótesis de datos se llama Entropía, regularmente indicada como HH. El significado de Entropía para una apropiación de probabilidad es:

En el caso de que usemos log2 para nuestro conteo, podemos descifrar la entropía como “el número base de bits que nos llevaría codificar nuestros datos”. Para esta situación, los datos serían todas las percepciones de las comprobaciones de dientes dada nuestra circulación observacional. Dada la información que hemos observado, nuestra circulación de observación tiene una entropía de 3,12 bits. La cantidad de bits nos revela la cabeza más baja para el número de bits que necesitaríamos, en general, para codificar el número de dientes que veríamos en un caso solitario.

Lo que la entropía no nos permite saber es el plan de codificación ideal para ayudarnos a cumplir con esta presión. La codificación ideal de los datos es un punto muy fascinante, aunque un poco demasiado para la comprensión de la singularidad de KL. La clave de la entropía es que, esencialmente, al realizar el hipotético límite inferior del número de bits que necesitamos, tenemos un enfoque para evaluar con precisión la cantidad de datos que hay en nuestra información. Ya que podemos evaluar esto, necesitamos medir cómo se pierden muchos datos cuando sustituimos nuestra difusión vigilada por una estimación parametrizada.

Estimación de los datos perdidos utilizando la diferencia Kullback-Leibler

La Disparidad Kullback-Leibler es sólo una ligera alteración de nuestra receta de entropía. En lugar de simplemente tener nuestra probabilidad de transmisión pp incluimos nuestra apropiación aproximada qq. En ese punto echamos un vistazo a la distinción de las estimaciones logísticas de cada uno:

D_{KL}(p||q) = \sum_{i=1}^{{N} p(x_i)\cdot (\texto{log }p(x_i) – \\ ~ \ ~ texto {log }q(x_i))DKL(p∣∣q)=i=1​(xi)⋅(log p(xi)-log q(xi))

Básicamente, lo que estamos viendo con la disparidad de KL es el deseo del contraste logarítmico entre la probabilidad de la información en la primera apropiación con la circulación aproximada. Una vez más, en la remota posibilidad de que pensemos en cuanto a log2 podemos traducir esto como “qué número de bits de datos esperamos perder”. Podríamos revisar nuestra ecuación hasta el punto de desear:

D_{KL}(p||q) = E[\text{log } p(x) – \text{log } q(x)]D (p∣∣q)=E[log p(x)-log q(x)]

El enfoque más típico para ver la composición de la disparidad de KL es el siguiente:

Con la singularidad de KL podemos determinar con precisión la cantidad de datos que se pierden cuando hacemos una circulación con otra. ¿Qué tal si volvemos a nuestra información y vemos a qué se parecen los resultados?

Mirando nuestros transportes aproximados

Actualmente podemos sentirnos libres de calcular la diferencia de KL para nuestras dos dispersiones aproximadas. Para la circulación uniforme que encontramos:

Como es obvio, los datos que se pierden al utilizar la conjetura del binomio son más prominentes que al utilizar la estimación uniforme. En la remota posibilidad de que necesitemos elegir uno para hablar de nuestras percepciones, estamos en una situación ideal quedándonos con la estimación Uniforme.

Divergencia, no distancia

Podría ser tentador considerar la Diferencia de KL como una métrica de separación, de todos modos no podemos utilizar la Diferencia de KL para cuantificar la separación entre dos dispersiones. La explicación detrás de esto es que la Disparidad de KL no es simétrica. Por ejemplo, siempre que utilizamos nuestra información observada como un método para aproximar la apropiación del Binomio obtenemos un resultado totalmente diferente:

Instintivamente esto es un buen presagio, ya que en cada uno de estos casos estamos haciendo un tipo de estimación totalmente diferente.