Все время в разделе Вероятность и измерения мы будем вытеснять просмотренную информацию или умопомрачительные тиражи с менее сложным, приближенным распространением. KL Различия побуждают нас точно определить, сколько данных мы теряем, когда мы выбираем оценку.

Как насчет того, чтобы начать расследование, взглянув на проблему. Предположим, что мы космические исследователи, посещающие удаленную, новую планету, и нашли тип грызущих червей, которые мы хотели бы рассмотреть. Мы обнаружили, что у этих червей 10 зубов, но из-за того, что они постоянно едят, у многих из них пропадают зубы. В результате сбора многочисленных примеров мы привели в данных обстоятельствах наблюдательные вероятности присвоения количества зубов каждому червю:

Несмотря на то, что эта информация невероятна, у нас есть некоторая проблема. Мы далеко от Земли, и отправка информации домой стоит дорого. Что нам нужно сделать, так это уменьшить эту информацию до простой модели с парой параметров. Один из вариантов – говорить о передаче зубов у червей как о единообразном присвоении. Мы знаем, что существует 11 потенциальных качеств, и мы можем просто свести равномерную вероятность 11 /1 к каждому из этих потенциальных исходов.

Очевидно, что наша информация не передается последовательно, однако, кроме того, она не выглядит чрезмерно много, как обычные тиражи, которые мы знаем. Другой вариант, который мы могли бы попробовать, это моделирование нашей информации с помощью биномиальной передачи. Для этой ситуации мы должны просто измерить этот параметр вероятности распространения Binomial. Мы понимаем, что на случай, если у нас есть nn отборочных и вероятность pp, в этот момент желание просто E[x] = n \cdot pE[x]=n⋅p. Для этой ситуации n = 10n=10, а желание – это только среднее значение нашей информации, которое мы констатируем – 5.7, так что наш лучший показатель p – 0.57. Это даст нам биномальную дисперсию, похожую на эту:

Контрастировав каждую из наших моделей и уникальную информацию, мы видим, что ни одна из них не является идеальной координатой, но какая из них лучше?

Контраст и первая информация, очевидно, что эти два приближения ограничены. Как мы можем выбрать, какое из них использовать?

Противоположная и первая информация, очевидно, что два приближения ограничены. Как мы можем выбрать, какое из приближений использовать?

В настоящее время существует множество измерений просчетов, однако наша основная задача заключается в ограничении объема данных, которые мы должны отправлять. Обе эти модели сводят нашу озабоченность к двум параметрам, количеству зубьев и вероятности (однако нам действительно нужно только количество зубьев для единообразного присвоения). Лучше всего спросить, какая передача защищает большую часть данных из нашего уникального источника информации. Именно здесь приходит уникальность Kullback-Leibler.

Энтропия нашей дисперсии

KL Dissimilarity имеет свои корни в гипотезе данных. Существенной целью гипотезы данных является оценка того, как много данных в информации. Наиболее значимое измерение в гипотезе данных называется Энтропия, регулярно обозначается как НН. Значение Энтропии для присвоения вероятности является:

H = -\sum_{i=1}^{N} p(x_i) \cdot \text{log }p(x_i)H=-i=\text(xi)⋅log p(xi)

В случае, если мы используем log2 для подсчета, мы можем расшифровать энтропию как “базовое количество битов, которое потребовалось бы нам для кодирования наших данных”. Для этой ситуации данными будут все восприятия проверки зубов, учитывая нашу наблюдательную циркуляцию. Учитывая информацию, которую мы наблюдали, наша вероятностная передача имеет энтропию 3,12 бита. Количество бит показывает нам, чем меньше бит, тем больше бит нам потребуется, чтобы кодировать количество зубов, которое мы увидим в одиночном случае.

Что энтропия не дает нам знать, так это идеальный план кодирования, который поможет нам справиться с этим давлением. Идеальное кодирование данных – это очень увлекательный момент, однако немного для понимания уникальности KL. Ключевая вещь с Энтропией заключается в том, что, по сути, понимая гипотетическую нижнюю границу на нужном нам количестве битов, мы имеем подход, позволяющий точно оценить, сколько данных находится в нашей информации. Так как мы можем это оценить, нам нужно измерить, как много данных теряется при замене наблюдаемого распространения на параметризованную оценку.

Оценка данных, потерянных с использованием разницы Куллбэка и Лейблера.

Kullback-Leibler Disparity – это лишь небольшое изменение нашего рецепта энтропии. Вместо того, чтобы просто иметь нашу вероятность передачи pp мы включаем наше приблизительное ассигнование qq. В этот момент мы смотрим на различение бревенчатых оценок для каждого:

D_{KL}(p||q) = \sum_{i=1}^{N} p(x_i)\cdot (\text{log }p(x_i) – \text{log }q(x_i))DKL(p∣∣q)=i=\sum(xi)⋅(log p(xi)-log q(xi)).

В принципе, то, на что мы смотрим с диспропорциями KL, это желание контрастировать в журнале между вероятностью информации в первом присвоении с приблизительным тиражом. Еще раз, на случай, если мы подумаем, что в журнале2 мы сможем перевести это как “какое количество битов данных мы надеемся потерять”. Мы могли бы пересмотреть наше уравнение по желанию:

D_{KL}(p||q) = E[\text{log } p(x) – \text{log } q(x)]D (p∣∣q)=E[log p(x)-log q(x)].

 

Более типичный подход, чтобы увидеть диспропорции KL состоит в следующем:

D_{KL}(p||q) = \sum_{i=1}^{N} p(x_i)\cdot log\frac{p(x_i)}{q(x_i)}D

С помощью уникальности KL мы можем точно определить, сколько данных теряется, когда мы грубо обращаемся друг с другом. Как насчет того, чтобы вернуться к нашей информации и посмотреть, на что похожи результаты.

Глядя на наши приблизительные передачи

В настоящее время мы можем свободно представить себе разницу KL для наших двух приближенных дисперсий. Для равномерной циркуляции мы находим:

Как должно быть очевидно, данные, потерянные в результате использования предположения Binomial, более значимы, чем использование однородной оценки. На случай, если нам понадобится выбрать одну из них, чтобы поговорить с нашими восприятиями, мы находимся в идеальной ситуации, оставаясь с Унифицированной оценкой.

Расхождение, а не расстояние

Может быть заманчиво рассмотреть Различие KL как метрику разделения, в любом случае мы не можем использовать Различие KL для количественного определения разделения между двумя дисперсиями. Объяснение, стоящее за этим – Различия KL не симметрично. Например, всякий раз, когда мы используем нашу наблюдаемую информацию как метод для аппроксимации Биномиального присвоения, мы получаем совсем другой результат:

Инстинктивно это предвещает, как и в каждом из этих случаев, мы делаем совершенно другой тип оценки.