Tragedia statystyki w większości wydziałów jest tak nudna, że się ją robi. Nauczyciele spędzają godziny brodząc przez derywacje, równania i twierdzenia, a gdy w końcu dojdziesz do najprostszej części – zastosowania pojęć do rzeczywistych liczb – to z nieistotnymi, niewyobrażalnymi przykładami, takimi jak toczenie kostek do gry. Często są “> to często wstyd, ponieważ statystyki mogą być przyjemne, jeśli pominiemy derywacje (których prawdopodobnie nigdy nie będziemy potrzebować) i wyspecjalizujemy się w wykorzystywaniu pojęć do rozwiązywania ciekawych problemów.

W tym artykule omówimy Procesy Poissonowe, a tym samym dystrybucję Poisson, dwa ważne pojęcia dotyczące prawdopodobieństwa. Po podświetleniu tylko odpowiedniej teorii, przejdziemy przez realistyczny przykład, pokazujący równania i wykresy, aby umieścić idee w odpowiednim kontekście.

Proces Poissona

Proces Poissona może być modelem dla serii dyskretnych zdarzeń, gdzie typowy czas pomiędzy zdarzeniami jest rozumiany, ale dokładny czas zdarzeń jest przypadkowy. Przybycie okazji jest niezależne od zdarzenia poprzedzającego (czas oczekiwania pomiędzy zdarzeniami jest mniej pamięciowy). Na przykład, załóżmy, że posiadamy stronę internetową, o której nasza sieć dostarczania treści (CDN) mówi nam średnio raz na 60 dni, ale jedna awaria nie wpływa na prawdopodobieństwo kolejnych. Wszyscy wiemy tylko, że średni czas między awariami. Często jest to proces Poissona, który wydaje się być podobny:

Istotne jest to, że wszyscy znamy typowy czas pomiędzy zdarzeniami, ale są one losowo rozmieszczone (stochastyczne). Mielibyśmy awarie back-to-back, ale moglibyśmy też przechodzić lata pomiędzy awariami dzięki losowości metody.

Proces Poissona spełnia kolejne kryteria (w rzeczywistości wiele zjawisk modelowanych jako procesy Poissona nie spełnia ich dokładnie):

Zdarzenia są niezależne od siebie. Wystąpienie 1 zdarzenia nie ma wpływu na prawdopodobieństwo wystąpienia kolejnego zdarzenia.

Średni wskaźnik (zdarzenia w danym okresie czasu) jest stały.

Dwa zdarzenia nie mogą wystąpić w równoważnym czasie.

Ostatni punkt – zdarzenia nie są równoczesne – oznacza, że każdy podokres procesu Poissona będziemy rozpatrywać jako próbę Bernoulliego, czyli albo trafienie, albo niepowodzenie. Z naszą stroną internetową, cały interwał może wynosić 600 dni, ale każdy pod-interwał – w pewnym momencie – nasza strona albo schodzi w dół, albo nie.

Częstymi przykładami procesów Poissona są klienci dzwoniący do centrum pomocy, odwiedzający stronę internetową, rozpad atomów, fotony docierające do teleskopu obszarowego oraz ruchy w czasie ceny akcji. Procesy Poissona są na ogół związane z czasem, ale nie muszą być. W przypadku drzewostanu, znalibyśmy typowe ruchy w ciągu dnia (wydarzenia w czasie), ale moglibyśmy mieć nawet proces Poissona dla ilości drzew na akr (wydarzenia na obszarze).

(Jednym z przykładów często podawanych dla procesu Poisson jest przyjazd autobusów (lub pociągów, lub teraz Ubers). Jednakże, często nie jest to prawdziwy proces Poisson, ponieważ przyjazdy nie są niezależne od jednego innego. Nawet w przypadku systemów autobusowych, które nie kursują na czas, to czy jeden autobus jest spóźniony czy nie, wpływa na czas przybycia kolejnego autobusu. Jake VanderPlas opublikował świetny artykuł na temat zastosowania procesu Poisson do czasu przybycia autobusu, który działa lepiej na podstawie gotowych danych niż danych rzeczywistych).

Dystrybucja Poisson

Proces Poissona jest taki, że model, którego używamy do opisywania przypadkowo występujących zdarzeń i sam w sobie nie jest aż tak użyteczny. Chcielibyśmy, aby dystrybucja Poissona starała się zainteresować takimi rzeczami, jak znalezienie prawdopodobieństwa wystąpienia różnych zdarzeń w danym okresie czasu lub znalezienie prawdopodobieństwa oczekiwania na chwilę do następnego zdarzenia.

Funkcja rozkładu Poissona prawdopodobieństwo masy daje prawdopodobieństwo obserwacji k zdarzeń w okresie czasu, biorąc pod uwagę czas trwania kwoty, a więc średnich zdarzeń w czasie:

Rozkład Poissona dla prawdopodobieństwa wystąpienia k zdarzeń w okresie czasu .

Jest to zawiłe dotknięcie, a zdarzenia/czas * okres czasu jest zazwyczaj uproszczony w jeden parametr, λ, lambda, parametr prędkości. Dzięki temu podstawieniu funkcja rozkładu poissonowego prawdopodobieństwa posiada teraz jeden parametr:

Lambda są często brane pod uwagę, ponieważ oczekiwana liczba zdarzeń w przedziale czasu. (Przejdziemy do nazywania tego interwału, ponieważ pamiętaj, nie musimy używać okresu czasu, możemy użyć obszaru lub objętości obsługiwanej przez nasz proces Poissona). Wolę wypisać lambda, aby przypomnieć sobie, że parametr prędkości może być funkcją zarówno typowych zdarzeń w czasie, a więc i długości okresu czasu, ale najczęściej będziesz go widział jak bezpośrednio powyżej.

Modyfikując parametr prędkości, λ, modyfikujemy prawdopodobieństwo zobaczenia różnych ilości zdarzeń w jednym odstępie czasu. Poniższy wykres przedstawia funkcję masy prawdopodobieństwa rozkładu Poissona pokazującą prawdopodobieństwo wystąpienia różnych ilości zdarzeń w jednym przedziale czasu o różnych parametrach prędkości.

Najbardziej prawdopodobną liczbą zdarzeń w przedziale dla każdej krzywej jest ten parametr szybkości. Jest to sensowne, ponieważ parametrem prędkości jest oczekiwana liczba zdarzeń w przedziale, a więc gdy jest to liczba całkowita, parametrem prędkości będzie ilość zdarzeń o największym prawdopodobieństwie.

Gdy nie jest to liczba całkowita, najbardziej prawdopodobna liczba zdarzeń będzie najbliższa parametrowi prędkości, ponieważ rozkład Poissona jest zdefiniowany tylko dla dyskretnej liczby zdarzeń. Dyskretna natura rozkładu Poissona jest dodatkowo powodem, dla którego często jest to funkcja masy prawdopodobieństwa, a nie funkcja gęstości. (Parametr prędkości jest dodatkowo średnią i wariancją rozkładu, które nie muszą być liczbami całkowitymi).

Możemy użyć funkcji masy rozkładu Poissona do poszukiwania prawdopodobieństwa obserwowania różnych zdarzeń w przedziale czasu wygenerowanym przez proces Poissona. Innym zastosowaniem równania z funkcją masową – jak zobaczymy później – jest poszukiwanie prawdopodobieństwa oczekiwania na jakiś czas pomiędzy zdarzeniami.

A Worked-Out Example

Dla sprawy, którą rozwiążemy za pomocą dystrybucji Poisson, moglibyśmy kontynuować awarie stron internetowych, ale proponuję coś większego. W dzieciństwie, mój ojciec często zabierał mnie na nasze podwórko, aby oglądać (lub próbować obserwować) prysznice meteorytów. Nie byliśmy maniakami przestrzeni kosmicznej, ale oglądanie obiektów z kosmosu spędzonych na niebie wystarczyło, by wypędzić nas na zewnątrz, choć natryski meteorytów pojawiały się zawsze w najzimniejszych miesiącach.

Liczba widzianych meteorów jest często modelowana jako rozkład Poissona, ponieważ meteory są niezależne, typowa liczba meteorów na godzinę jest stała (w krótkim okresie czasu) i – często w przybliżeniu – meteory nie występują jednocześnie. Aby scharakteryzować rozkład Poissona, wystarczy podać parametr szybkości, czyli liczbę zdarzeń/przedział * długość przedziału. Z tego co pamiętam, powiedziano nam, żebyśmy oczekiwali średnio 5 meteorów na godzinę lub 1 na 12 minut. dzięki ograniczonej cierpliwości małego dziecka (zwłaszcza w mroźną noc), nigdy nie przebywaliśmy na zewnątrz dość długo, więc użyjemy tego, ponieważ okres czasu . Łącząc te 2 razem, dostajemy:

Co dokładnie oznacza “5 meteorów”? Cóż, zgodnie z moim pesymistycznym tatą, to znaczy, że zobaczymy 3 meteory w ciągu godziny, góra. W tamtym czasie nie miałem żadnych umiejętności w zakresie danych i ufałem jego osądowi. Teraz, gdy jestem starszy i mam zdrowy sceptycyzm wobec autorytetów, czas poddać jego oświadczenie testowi. Użyjemy rozkładu Poissona, aby zbadać prawdopodobieństwo zobaczenia dokładnie 3 meteorów w ciągu jednej godziny obserwacji:

14% lub około 1/7. Gdybyśmy przez tydzień wychodzili nocą na zewnątrz, moglibyśmy oczekiwać, że mój tata będzie miał rację dokładnie raz! Choć to miło zrozumieć, to jednak chodzi nam o rozkład, prawdopodobieństwo zobaczenia różnych ilości meteorów. Robienie tego ręcznie jest żmudne, więc użyjemy Pythona – co zobaczysz w tym Notatniku Jupytera – do obliczeń i wizualizacji.

Poniższy wykres przedstawia Funkcję Masy Prawdopodobieństwa dla ilości meteorów w godzinie przy średnim czasie między meteorami wynoszącym 12 minut (co jest tym samym co powiedzenie 5 meteorów oczekiwanych w godzinie).

To właśnie oznacza “5 oczekiwanych zdarzeń”! Najbardziej prawdopodobna liczba meteorów to 5, parametr prędkości rozkładu. (Ze względu na dziwactwo liczb, 4 i 5 mają równorzędne prawdopodobieństwo, 18%). jak w każdym rozkładzie, jest jedna przypuszczalna wartość, ale jest też dobry zakres możliwych wartości. na przykład, możemy wyjść i zobaczyć 0 meteorów, lub możemy zobaczyć dość 10 w jednej godzinie. aby poszukać możliwości tych zdarzeń, używamy równorzędnego równania, ale ten punkt oblicza sumy prawdopodobieństw (patrz notebook).

Obliczyliśmy już perspektywę zobaczenia dokładnie 3 meteorów jako około 14%. Perspektywa zobaczenia 3 lub mniej meteorów w ciągu jednej godziny wynosi 27%, co sugeruje, że prawdopodobieństwo zobaczenia dość 3 meteorów wynosi 73%. Podobnie, prawdopodobieństwo zobaczenia dosyć 5 meteorów wynosi 38,4%, natomiast prawdopodobieństwo zobaczenia 5 lub mniej meteorów w 61,6% godzin obserwacji. Mimo, że jest ono małe, istnieje 1,4% szans na zaobserwowanie dość 10 meteorów w ciągu godziny!

Aby zwizualizować te możliwe scenariusze, przeprowadzimy eksperyment zlecając siostrze zapisywanie ilości meteorów, które widzi co godzinę przez 10.000 godzin. Wyniki są pokazane w poniższym histogramie:

Eksperymentowanie z prędkością Parametr

Parametrem stawki, λ, jest to, że jedyna liczba, którą chcielibyśmy zdefiniować rozkład Poissona . Ponieważ jednak jest to iloczyn dwóch części (zdarzenia/przedział * długości przedziału), istnieją dwa sposoby na jego zmianę: będziemy zwiększać lub zmniejszać zdarzenia/przedział oraz że możemy zwiększać lub zmniejszać długość przedziału.

Po pierwsze, zmieńmy parametr prędkości, zwiększając lub zmniejszając ilość meteorów na godzinę, aby upewnić się, jak wpływa to na rozkład. Dla tego wykresu, utrzymujemy stałą długość przedziału czasowego na godzinę (1 godzina).

W każdym przypadku, najbardziej prawdopodobną liczbą meteorów w ciągu godziny jest oczekiwana liczba meteorów, parametr prędkości dla rozkładu Poissona . razem, na przykład, przy 12 meteorach na godzinę (MPH), nasz parametr prędkości wynosi 12 i jest 11% szans na obserwację dokładnie 12 meteorów w ciągu 1 godziny. Jeśli nasz parametr prędkości obrotowej wzrośnie, powinniśmy zawsze oczekiwać, że będziemy obserwować więcej meteorów w ciągu godziny.

Inną możliwością jest wydłużenie lub zmniejszenie długości interwału. Poniżej znajduje się ten sam wykres, ale w tym punkcie utrzymujemy stałą ilość meteorów na godzinę na poziomie 5 i zmieniamy długość obserwowanego przez nas czasu.

Nic dziwnego, że spodziewamy się ustalić więcej meteorów, im dłużej będziemy przebywać na zewnątrz! Ktokolwiek powiedział, że “kto się waha, ten się gubi”, najwyraźniej nigdy nie stał i nie oglądał deszczu meteorytów.

Czas oczekiwania

Intrygującą częścią procesu Poisson jest podjęcie decyzji o tym, jak długo musimy czekać na kolejne wydarzenie (zwykle nazywane jest to czasem międzywojennym). Weźmy pod uwagę sytuację: meteory pojawiają się średnio raz na 12 minut. Jeśli osiągniemy przypadkowy czas, jak długo możemy spodziewać się obecności, aby ustalić kolejny meteor? Mój tata zawsze (tym razem optymistycznie) twierdził, że musimy uczęszczać tylko na 6 minut na meteor pierwotny, co jest zgodne z naszą intuicją. Jednak jeśli czegoś się nauczyliśmy, to znaczy, że nasza intuicja nie jest dobra w prawdopodobieństwie

Nie będę wpisywał derywacji (pochodzi ona z równania funkcji masy prawdopodobieństwa), ale czas, w którym będziemy się spodziewali uczestniczyć między zdarzeniami, może być wykładniczy i rozpadający się. Prawdopodobieństwo oczekiwania na określoną ilość czasu pomiędzy kolejnymi zdarzeniami maleje wykładniczo, ponieważ czas ten wzrasta. Kolejne równanie pokazuje prawdopodobieństwo oczekiwania na dość określony czas.

https://miro.medium.com/max/321/1*J5wnA64Y1e4OnVXoxp1aHw.png

Prawdopodobieństwo czekania dłużej niż pewien czas.

W naszym przykładzie mamy 1 event/12 minut, a jeśli połączymy numery, otrzymamy 60,65% szans na oczekiwanie > 6 minut. Tak dużo jak na zgadywankę mojego taty! Aby zwrócić uwagę na inny przypadek, spodziewamy się dość półgodzinnej obecności około 8,2% czasu. (Musimy zauważyć, że jest to często pomiędzy każdą kolejną parą wydarzeń. Czasy oczekiwania pomiędzy zdarzeniami są mniej pamięciowe, więc czas pomiędzy dwoma zdarzeniami nie ma wpływu na czas pomiędzy innymi zdarzeniami. Ten brak pamięci jest dodatkowo określany jako właściwość Markova).

Wykres pomaga nam zobaczyć wykładniczy powrót czasu oczekiwania:

https://miro.medium.com/max/2799/1*wgUevIF2MjYWefnsFSkVng.png

Istnieje 100% szans na oczekiwanie dość 0 minut, co spada do blisko 0% szans na oczekiwanie dość 80 minut. Ponownie, ponieważ jest to często rozkład, istnieje dobry zakres możliwych czasów międzylądowania.

I odwrotnie, użyjemy tego równania do poszukiwania prawdopodobieństwa oczekiwania, ale lub odpowiedniego do czasu:

Prawdopodobieństwo oczekiwania, ale lub adekwatne do określonego czasu.

https://miro.medium.com/max/389/1*nqqmj1IzORZhQ5VhihkaYA.png

Możemy się spodziewać, że zajmiemy 6 lub mniej minut, aby ustalić meteor 39,4% czasu. Znajdziemy również prawdopodobieństwo, że będziemy czekać przez pewien okres czasu: istnieje 57,72% prawdopodobieństwo, że będziemy czekać od 5 do pół godziny, aby ustalić kolejny meteor.

Aby zwizualizować rozkład czasu oczekiwania, jeszcze raz przeprowadzimy (symulowany) eksperyment. Symulujemy oczekiwanie na 100 000 minut ze średnią prędkością 1 meteora / 12 minut. Następnie odkrywamy czas oczekiwania pomiędzy każdym widzianym przez nas meteorem i wykreślamy jego rozkład.

Najbardziej prawdopodobny czas oczekiwania wynosi 1 minutę, ale nie jest to typowy czas oczekiwania. Powróćmy do podstawowego pytania: jak długo możemy spodziewać się obecności na przeciętnie, aby ustalić pierwszy meteor, jeśli osiągniemy przypadkowy czas?

Aby odpowiedzieć na typowe pytanie o czas oczekiwania, przeprowadzimy 10.000 oddzielnych prób, kiedy będziemy oglądać niebo przez 100.000 minut. Poniższy wykres pokazuje rozkład typowego czasu oczekiwania pomiędzy meteorami z tych prób:

https://miro.medium.com/max/2853/1*doL_uvKr51T0CiSBzdyv_w.png

Średnia z dziesięciu tysięcy średnich wydaje się wynosić 12,003 minuty. Chociaż osiągamy czas przypadkowy, typowym czasem, w którym będziemy się spodziewać, że meteor podstawowy będzie się znajdował w tym samym czasie co meteor podstawowy, jest średni czas między wystąpieniami. Na początku może to być trudne do zrozumienia: jeśli zdarzenia występują średnio co 12 minut, to dlaczego mielibyśmy być obecni przez całe 12 minut, zanim zobaczymy jedno zdarzenie? Rozwiązanie polega na tym, że jest to średni czas oczekiwania, biorąc pod uwagę wszystkie możliwe sytuacje.

Gdyby meteory przychodziły dokładnie co 12 minut, to typowy czas oczekiwania na ustalenie głównego wydarzenia wynosiłby 6 minut. Ponieważ jednak często jest to rozkład wykładniczy, czasami pojawiamy się i musimy czekać godzinę, co przeważa nad większą liczbą razy, gdy czekamy mniej niż 12 minut. Często nazywany jest to Paradoksem Czasu Czekania i może być wart przeczytania.

Jako ostateczną wizualizację zróbmy losową symulację 1 godziny obserwacji.

Cóż, ten punkt mamy dokładnie to, czego się spodziewaliśmy: 5 meteorów. Musieliśmy uczęszczać na ćwierć godziny na główną, z drugiej strony mieliśmy uczciwy odcinek strzelających gwiazd. Minimum w tym przypadku, warto by było wyjść z domu na obserwację gwiazd!

https://miro.medium.com/max/2286/1*dP4kqH2vy9CGe0FF3Ovucw.png

Uwagi dotyczące dystrybucji Poisson i Bernoullego

Rozkład Bernoulliego jest stosowany do modelowania prawdopodobieństwa ilości sukcesów, których będziemy oczekiwać od n prób z prawdopodobieństwem p. Rozkład Poissona może być specjalnym przypadkiem rozkładu Bernoulliego, ponieważ n idzie do nieskończoności, podczas gdy oczekiwana ilość sukcesów pozostaje stała. Poisson jest stosowany jako przybliżenie Binomialu, jeżeli n jest duże, a p jest małe.

Podobnie jak w przypadku wielu pomysłów w statystyce, “duży” i “mały” są do interpretacji. Zasadą jest, że rozkład Poissona może być przyzwoitym przybliżeniem Binomialu, jeśli n > 20 i n < 10. Dlatego też rzut monetą, nawet dla 100 prób, powinien być modelowany jako Binomial, ponieważ n = 50. Centrum telefoniczne, które otrzymuje 1 połączenie co pół godziny w ciągu 120 minut, może być modelowane jako dystrybucja Poissona, ponieważ n = 4. Ważną różnicą może być to, że Binomial występuje dla twardego i szybkiego zbioru prób (domena jest dyskretna), podczas gdy Poisson występuje na teoretycznie nieskończonej liczbie prób (domena ciągła). często jest to tylko przybliżenie; należy pamiętać, że wszystkie modele są błędne, ale niektóre są przydatne!

Więcej na ten temat znajdziesz w sekcji Related Distribution na Wikipedii poświęconej dystrybucji Poisson. Jest tu również uczciwa odpowiedź Stack Exchange.

Uwagi na temat meteorów/meteorytów/meteoroidów/esteroidów

Meteory to smugi słońca, które widzisz na niebie, spowodowane przez kawałki gruzu zwane meteoroidami palącymi się w atmosferze. Meteoroid może pochodzić z asteroidy, komety, lub trochę planety i jest zwykle milimetrów średnicy, ale często są do kilometra. Jeśli meteoroid przetrwa swoją podróż przez atmosferę i wpływa na Ziemię, nazywa się to meteorytem. Asteroidy są znacznie większymi kawałkami skał krążących wokół Słońca w obrębie pasa. Kawałki asteroid, które odłamują się, stają się meteoroidami. Im więcej wiesz!