Трагедия статистики на большинстве факультетов – это то, как скучно она делается. Преподаватели часами пробираются через производные, уравнения и теоремы, и, как только вы наконец-то добрались до самой простой части – применения понятий к действительным числам – это происходит с неактуальными, невообразимыми примерами, такими как бросание костей. Часто это “>” – позор, так как статистика может быть приятной, если вы пропустите производные (которые, скорее всего, вам никогда не понадобятся) и специализируетесь на использовании идей для распутывания интересных задач.

В этой статье мы расскажем о Пуассонских процессах и, следовательно, о Пуассонском распределении, двух важных концепциях вероятности. Выделив только релевантную теорию, мы пробежимся на реальном примере, показывая уравнения и графики, чтобы поместить идеи в нужный контекст.

Пуассонский процесс

Пуассонский процесс может быть моделью для серии дискретных событий, где понимается типичное время между событиями, но точное время событий является случайным. Приход события не зависит от предыдущего события (время ожидания между событиями меньше памяти). Например, предположим, что мы владеем интернет-сайтом, который, по данным нашей сети доставки контента (CDN), падает в среднем раз в 60 дней, но одна неудача не влияет на вероятность последующего. Все, что мы знаем, это то, что среднее время между отказами. Часто возникает процесс Пуассона:

Важным моментом является то, что мы все знаем типичное время между событиями, но они случайно разнесены (стохастические). У нас были бы повторяющиеся неудачи, но мы также могли бы пройти годы между неудачами благодаря случайности метода.

Пуассонский процесс отвечает последующим критериям (на самом деле многие явления, смоделированные как Пуассонские процессы, не совсем соответствуют этим критериям):

События независимы друг от друга. Событие 1 не влияет на вероятность возникновения другого события.

Средняя скорость (события за период времени) постоянна.

Два события не могут произойти в эквивалентное время.

Последняя точка – события не являются одновременными – означает, что каждый суб-интервал Пуассонского процесса мы будем рассматривать как пробное испытание Бернулли, т.е. либо как хит, либо как неудачу. С нашим сайтом весь интервал также может составлять 600 дней, но каждый суб-интервал – в какой-то момент – наш сайт либо падает, либо нет.

Распространенными примерами пуассонских процессов являются звонки клиентов в справочный центр, посещение интернет-сайта, распад атомов, прибытие фотографий в районный телескоп, а также движение во время цены акции. Процессы Пуассона, как правило, связаны со временем, но в этом нет необходимости. В случае со складом, мы бы знали типичные движения в день (события за время), но мы могли бы даже иметь Пуассон процесс для количества деревьев в акре (события за площадь).

(Один из примеров, часто приводимый для Пуассонского процесса, – это прибытие автобусов (или поездов, или теперь Ubers). Однако, это часто не является реальным процессом Пуассона, потому что прибытия не зависят от 1 другого. Даже для автобусных систем, которые не работают вовремя, опоздание одного автобуса или нет влияет на время прибытия следующего автобуса. Джейк ВандерПлас (Jake VanderPlas) написал замечательную статью о применении процесса Пуассона ко времени прибытия шины, который лучше работает с выдуманными данными, чем с данными реального мира).

распределение Пуассона

Процесс Пуассона заключается в том, что модель, которую мы используем для описания случайно происходящих событий, сама по себе не так уж и полезна. Нам бы хотелось, чтобы распределение Пуассона попыталось найти такие интересные вещи, как нахождение вероятности разнообразных событий в течение определенного периода времени или нахождение вероятности подождать некоторое время до наступления последующего события.

Функция массы вероятности распределения Пуассона дает вероятность наблюдения k событий за период времени, учитывая длительность количества и, следовательно, среднее значение событий за время:

Распределение Пуассона для вероятности k событий за период времени .

Это сенсорная извилина, и события/время*период времени обычно упрощается в один параметр, λ, лямбда, параметр скорости. При такой замене функция вероятности Пуассона теперь имеет один параметр:

О лямбде часто думают потому, что ожидаемое количество событий в интервале. (Мы перейдем к названию этого интервала, потому что помните, что нам не нужно использовать период времени, мы могли бы использовать площадь или объем, поддерживаемый нашим процессом Пуассона). Я предпочитаю записывать лямбду, чтобы напомнить себе, что параметр скорости может быть функцией как типичных событий за время, так и, следовательно, длины периода времени, но чаще всего вы будете видеть его как непосредственно выше.

По мере изменения параметра скорости, λ, мы изменяем вероятность того, что в одном интервале будет происходить разное количество событий. На приведенном ниже графике видно, что функция массы вероятности распределения Пуассона, показывающая вероятность разнообразия событий, происходящих в интервале с различными параметрами скорости.

Наиболее вероятным числом событий в интервале для каждой кривой является параметр скорости. Это разумно, так как параметр скорости – это ожидаемое количество событий в интервале, а значит, когда это целое число, то параметр скорости будет представлять собой количество событий с наибольшей вероятностью.

Когда это не целое число, наилучшим вероятностным числом событий будет ближайшее целое число к параметру скорости, так как распределение Пуассона определяется только для дискретного числа событий. Дискретная природа Пуассонского распределения дополнительно объясняет, почему это часто является функцией массы вероятности, а не плотности. (Параметр скорости дополнительно является средним и дисперсией распределения, которые не обязательно должны быть целыми числами).

Функцию массы распределения Пуассона можно использовать для поиска вероятности наблюдения за разнообразием событий на интервале, генерируемом пуассоновским процессом. Другое применение уравнения массовой функции – как мы увидим позже – заключается в поиске вероятности ожидания некоторого времени между событиями.

Обработанный пример

Потому что мы решим проблему с дистрибутивом Пуассона, мы могли бы продолжить с неудачами сайта, но я предлагаю что-то более грандиозное. В детстве отец часто брал меня с собой во двор, чтобы посмотреть (или попытаться понаблюдать) за метеоритными дождями. Мы не были космическими чокнутыми, но наблюдать за объектами из космоса, проводящими время в небе, было достаточно, чтобы побудить нас выйти на улицу, хотя метеоритные дожди всегда происходили в самые холодные месяцы.

Количество наблюдаемых метеоров часто моделируется как распределение Пуассона, потому что метеоры независимы, типичное количество метеоров в час постоянно (в краткосрочной перспективе), и – это часто приближение – метеоры не встречаются одновременно. Чтобы охарактеризовать распределение Пуассона, достаточно параметра скорости, которым является количество событий/интервал * длина интервала. Из того, что я помню, нам сказали ожидать в среднем 5 метеоров в час или 1 каждые 12 минут. благодаря ограниченному терпению маленького ребенка (особенно в ночь заморозки), мы никогда не оставались в стороне в течение часа, поэтому мы будем использовать этот параметр, потому что период времени. Складывая 2, мы получаем:

Что именно означает “5 метеоров ожидается”? Ну, в соответствии с моим пессимистическим отцом, это означало, что мы увидим 3 метеора в час, максимум. В то время я не обладал навыками работы с данными и доверял его суждениям. Теперь, когда я старше и у меня здоровый скептицизм по отношению к авторитетным фигурам, пришло время поместить его заявление на тест. Мы воспользуемся распределением Пуассона для поиска вероятности увидеть ровно 3 метеора за один час наблюдения:

14% или около 1/7. Если бы мы выходили на улицу ночью в течение одной недели, то можно было бы ожидать, что мой отец будет прав ровно один раз! Приятно понимать, что нам нужно такое распределение, вероятность увидеть разное количество метеоров. Делать это вручную утомительно, поэтому мы будем использовать Python – который вы увидите во время этого Jupyter Notebook – для расчетов и визуализации.

На приведенном ниже графике показана функция вероятностной массы для количества метеоров в час со средним временем между метеорами 12 минут (это то же самое, что и говорить о 5 метеорах, ожидаемых в час).

Вот что означает “5 ожидаемых событий”! Наиболее вероятное количество метеоров – 5, параметр скорости распределения. (Из-за причуды чисел, 4 и 5 имеют эквивалентную вероятность, 18%). как и любое распределение, есть одно предположительное значение, но есть и хороший диапазон возможных значений. например, мы могли бы оставить и увидеть 0 метеоров, или мы могли бы увидеть достаточно 10 за один час. для поиска возможностей этих событий, мы используем эквивалентное уравнение, но эта точка вычисляет суммы вероятностей (подробнее см. блокнот).

Мы уже подсчитали, что перспектива увидеть ровно 3 метеора составляет около 14%. Перспектива увидеть 3 и менее метеоров за один час составляет 27%, что говорит о том, что вероятность увидеть 3 и менее метеоров составляет 73%. Точно так же вероятность увидеть ровно 5 метеоров составляет 38.4%, в то время как можно было бы ожидать, что за 61.6% часов наблюдения мы увидим 5 и менее метеоров. Хотя это и маловероятно, но шанс увидеть 10 метеоров за час составляет 1,4%!

Чтобы визуализировать эти возможные сценарии, мы проведем эксперимент, попросив нашу сестру записать количество метеоров, которые она видит каждый час в течение 10 000 часов. Результаты показаны на гистограмме ниже:

Экспериментируя с параметром скорости

Параметр скорости, λ, это единственное число, которое мы хотели бы определить распределение Пуассона. Однако, поскольку это произведение двух частей (события/интервал * длина интервала), есть два способа его варьировать: мы будем увеличивать или уменьшать события/интервал, и мы сможем увеличивать или уменьшать длину интервала.

Во-первых, изменим параметр скорости, увеличив или уменьшив количество метеоров в час, чтобы выяснить, как это влияет на распределение. Для данного графика мы сохраняем период времени постоянным в часах (1 час).

В каждом случае наиболее вероятным количеством метеоров за час является ожидаемое количество метеоров, параметр скорости для распределения Пуассона. вместе взятые, на примере 12 метеоров в час (MPH), наш параметр скорости равен 12 и есть 11% шанс наблюдать ровно 12 метеоров за 1 час. Если наш параметр скорости увеличивается, то мы всегда должны рассчитывать на большее количество метеоров в час.

Другой вариант – увеличить или уменьшить длину интервала. Ниже приведен тот же график, но в этой точке мы сохраняем количество метеоров в час постоянным на уровне 5 и изменяем длину интервала, который мы наблюдаем.

Нет ничего удивительного в том, что мы ожидаем, что чем дольше мы останемся в стороне, тем больше метеоров мы будем устанавливать! Кто бы ни говорил “кто колеблется, тот теряется”, очевидно, никогда не стоял и не наблюдал за метеоритными дождями.

Время ожидания

Интригующая часть пуассонского процесса включает в себя решение о том, как долго мы будем присутствовать до следующего мероприятия (обычно это называется межсезонье). Рассмотрим ситуацию: метеоры появляются в среднем раз в 12 минут. Если мы достигнем случайного времени, как долго мы можем ожидать посещения, чтобы установить последующий метеор? Мой отец всегда (на этот раз оптимистично) утверждал, что мы должны присутствовать только 6 минут для первичного метеора, что согласуется с нашей интуицией. Однако, если мы чему-то и научились, так это тому, что наша интуиция не очень хороша с точки зрения вероятности.

Я не буду входить в производную (это происходит от уравнения вероятностной массовой функции), но время, которое мы будем ожидать между событиями, может быть распадающимся экспоненциальным. Вероятность ожидания заданного количества времени между последовательными событиями уменьшается экспоненциально, так как время увеличивается. Последующее уравнение показывает вероятность ожидания вполне определенного времени.

https://miro.medium.com/max/321/1*J5wnA64Y1e4OnVXoxp1aHw.png

Вероятность подождать больше, чем определенное время.

В нашем примере мы имеем 1 событие/12 минут, и если мы соединим номера, то получим 60,65% шанс подождать > 6 минут. Так много для папиного предположения! В другом случае, мы ожидаем, что будем присутствовать в течение получаса около 8.2% времени. (Нужно отметить, что это часто происходит между каждой парой подряд. Время ожидания между событиями меньше запоминается, поэтому время между двумя событиями не влияет на время между другими событиями. Эта безпамятность дополнительно называется свойством Маркова).

График помогает нам увидеть экспоненциальное возвращение времени ожидания:

https://miro.medium.com/max/2799/1*wgUevIF2MjYWefnsFSkVng.png

Вероятность ожидания составляет 100%, что составляет около 0%, а вероятность ожидания – около 80%, что составляет около 80 минут. Опять же, так как это часто бывает распределением, существует хороший диапазон возможных межсезоньевых времен.

И наоборот, мы будем использовать это уравнение для поиска вероятности ожидания, но или адекватного времени:

Вероятность ожидания, но или адекватного времени

https://miro.medium.com/max/389/1*nqqmj1IzORZhQ5VhihkaYA.png

Можно ожидать, что мы будем присутствовать 6 минут или меньше, чтобы установить метеор 39,4% времени. Также мы найдем вероятность ожидания в течение периода времени: существует 57.72% вероятность ожидания от 5 до получаса, чтобы обнаружить последующий метеор.

Для визуализации распределения времени ожидания еще раз проведем (смоделированный) эксперимент. Моделируем ожидание 100 000 минут со средней скоростью 1 метеор / 12 минут. Затем мы обнаружим время ожидания между каждым увиденным метеором и построим график распределения.

Наиболее вероятное время ожидания – 1 минута, но это не типичное время ожидания. Давайте вернемся к первичному вопросу: как долго в среднем мы можем ожидать появления первого метеора, если мы достигнем случайного времени?

Чтобы ответить на вопрос о типичном времени ожидания, мы проведем 10 000 отдельных испытаний, когда будем наблюдать за небом в течение 100 000 минут. На приведенном ниже графике показано распределение типичного времени ожидания между метеорами из этих испытаний:

https://miro.medium.com/max/2853/1*doL_uvKr51T0CiSBzdyv_w.png

Среднее значение десяти тысяч, похоже, составляет 12.003 минуты. Хотя мы и достигаем случайного времени, типичное время, которое мы ожидаем для первичного метеора, – это среднее время между событиями. Сначала это может быть трудно понять: если события происходят в среднем каждые 12 минут, то почему мы должны присутствовать все 12 минут, прежде чем увидеть одно событие? Решение заключается в том, что это среднее время ожидания с учетом всех возможных ситуаций.

Если бы метеоры приходили ровно каждые 12 минут, то типичное время, которое нам нужно было бы подождать, чтобы убедиться в первичном, составило бы 6 минут. Однако, поскольку это часто экспоненциальное распределение, иногда мы появляемся и должны ждать час, что перевешивает большее количество раз, когда мы ждем менее 12 минут. Это часто называется Парадоксом Времени Ожидания и может быть полезным чтением.

В качестве окончательной визуализации, давайте сделаем случайную симуляцию 1 часа наблюдения.

Ну, в этот момент мы получили именно то, что ожидали: 5 метеоров. Пришлось присутствовать в течение четверти часа на первом, с другой стороны, у нас был честный отрезок падающих звезд. Минимум того, что во время этого дела стоило бы выйти из дома для небесного наблюдения!

https://miro.medium.com/max/2286/1*dP4kqH2vy9CGe0FF3Ovucw.png

Примечания по дистрибуции Пуассона и Бернулли

Распределение Бернулли используется для моделирования вероятности количества успешных результатов n испытаний с вероятностью p. Распределение Пуассона может быть особым случаем распределения Бернулли, поскольку n переходит в бесконечность, в то время как ожидаемое количество успешных результатов остается фиксированным. Пуассон используется в качестве аппроксимации биномиала, если n велико, а p мало.

Как и многие идеи в статистике, “большой” и “маленький” зависят от интерпретации. Практическое правило заключается в том, что распределение Пуассона может быть приличным приближением Биномиала, если n > 20 и np < 10. Следовательно, подбрасывание монеты, даже для 100 проб, должно быть смоделировано как Биномиал, потому что np = 50. Колл-центр, который получает 1 вызов каждые полчаса в течение 120 минут, может быть смоделирован как распределение Пуассона как np = 4. Одним из важных отличий может быть то, что Биномиал возникает для жесткого и быстрого набора проб (домен дискретный), в то время как Пуассон возникает для теоретически бесконечного числа проб (непрерывный домен). часто это всего лишь приближение; помните, что все модели неверны, но некоторые из них полезны!

Подробнее об этом можно прочитать в разделе Википедии, посвященном дистрибутиву Poisson. Здесь также есть честный ответ Stack Exchange.

Заметки о метеорах/метеоритах/метеороидах/астероидах

Метеоры – это полосы солнечного света, которые вы видите в небе и которые вызваны осколками мусора, называемыми метеоритами, горящими в атмосфере. Метеороид может исходить от астероида, кометы или кусочка планеты и обычно имеет миллиметровый диаметр, но часто достигает километра. Если метеорит выдерживает свое путешествие через атмосферу и соударяется с Землей, его называют метеоритом. Астероиды – это гораздо более крупные куски породы, вращающиеся вокруг Солнца в пределах пояса. Куски астероидов, которые разлетаются, становятся метеоритами. Чем больше ты знаешь!