Een tragedie van de statistieken in de meeste faculteiten is hoe saai het is gemaakt. Leraren besteden urenlang aan het doorwaden van afleidingen, vergelijkingen en stellingen, en als je eenmaal bij het eenvoudigste deel bent gekomen – het toepassen van concepten op werkelijke getallen – is het met irrelevante, fantasieloze voorbeelden zoals het gooien van dobbelstenen. Zijn vaak “> dit is vaak een schande, want statistieken kunnen leuk zijn als je de afleidingen overslaat (die je waarschijnlijk nooit nodig zult hebben) en je specialiseert in het gebruik van de ideeën om interessante problemen te ontrafelen.

In dit artikel behandelen we Poisson Processes en dus de Poisson distributie, twee belangrijke waarschijnlijkheidsconcepten. Nadat we alleen de relevante theorie hebben belicht, zullen we een voorbeeld uit de echte wereld doornemen, waarbij we vergelijkingen en grafieken laten zien om de ideeën in een juiste context te plaatsen.

Poissonproces

Een Poisson Process kan een model zijn voor een reeks discrete gebeurtenissen waarbij de typische tijd tussen de gebeurtenissen wordt begrepen, maar de precieze timing van de gebeurtenissen is willekeurig. De aankomst van een gebeurtenis is onafhankelijk van de vorige gebeurtenis (de wachttijd tussen de gebeurtenissen is het geheugen minder). Stel dat we een internetsite hebben waarvan ons content delivery network (CDN) zegt dat het gemiddeld één keer per 60 dagen minder wordt, maar één storing heeft geen invloed op de waarschijnlijkheid van een volgende gebeurtenis. Het enige dat we allemaal weten is dat de gemiddelde tijd tussen storingen. Dit is vaak een Poisson-proces dat lijkt:

Het belangrijkste punt is dat we allemaal de typische tijd tussen de gebeurtenissen kennen, maar dat ze willekeurig verdeeld zijn (stochastisch). We zouden ruggelingsstoringen hebben, maar we zouden ook jaren tussen storingen kunnen zitten dankzij de willekeurigheid van de methode.

Een Poisson-proces voldoet aan de volgende criteria (in werkelijkheid voldoen veel fenomenen die gemodelleerd zijn als Poisson-processen niet precies aan deze criteria):

Gebeurtenissen zijn onafhankelijk van elkaar. Het optreden van 1 gebeurtenis heeft geen invloed op de kans dat een andere gebeurtenis zich voordoet.

Het gemiddelde percentage (gebeurtenissen per periode) is constant.

Twee gebeurtenissen kunnen niet op hetzelfde moment plaatsvinden.

Het laatste punt – gebeurtenissen zijn niet gelijktijdig – betekent dat we elke sub-interval van een Poisson proces zullen beschouwen als een Bernoulli-proces, dat wil zeggen, of het nu een hit of een mislukking is. Met onze website kan het hele interval ook 600 dagen zijn, maar elke sub-interval – op een bepaald moment – gaat onze website ofwel ten onder of niet.

Veel voorkomende voorbeelden van Poisson-processen zijn klanten die een hulpcentrum bellen, bezoekers van een internetsite, verval van atomen, fotonen die bij een ruimtetelescoop aankomen, en bewegingen tijdens een beurskoers. Poisson processen zijn over het algemeen gerelateerd aan de tijd, maar dat hoeft niet. Binnen de voorraadkast zouden we de typische bewegingen per dag (gebeurtenissen per tijd) kennen, maar we zouden zelfs een Poisson-proces kunnen hebben voor de hoeveelheid bomen in een acre (gebeurtenissen per gebied).

(Een voorbeeld dat vaak wordt gegeven voor een Poisson Process is de aankomst van bussen (of treinen of nu Ubers). Dit is echter vaak geen echt Poisson proces omdat de aankomsten niet onafhankelijk zijn van 1 andere. Zelfs voor bussystemen die niet op tijd rijden, heeft het al dan niet te laat komen van een bus invloed op het tijdstip van aankomst van de volgende bus. Jake VanderPlas heeft een geweldig artikel over het toepassen van een Poisson-proces op busaankomsttijden dat beter werkt met verzonnen data dan met echte data).

Poisson distributie

Het Poisson-proces is dat het model dat we gebruiken voor het beschrijven van willekeurig voorkomende gebeurtenissen en is op zichzelf niet zo nuttig. we willen dat de Poisson-verdeling probeert om interessante dingen te vinden, zoals het vinden van de waarschijnlijkheid van verscheidenheid aan gebeurtenissen gedurende een periode van tijd of het vinden van de waarschijnlijkheid van het even wachten op een volgende gebeurtenis.

De Poisson-verdelingskansenmassa-functie geeft de waarschijnlijkheid van het waarnemen van k gebeurtenissen gedurende een periode gezien de lengte van het bedrag en dus de gemiddelde gebeurtenissen per tijd:

De Poisson-verdeling voor de waarschijnlijkheid van k-gebeurtenissen in een tijdsperiode.

Dit is een touch convoluted, en gebeurtenissen/tijd * periode wordt typisch vereenvoudigd in een parameter, λ, lambda, de snelheidsparameter. Met deze vervanging heeft de Poisson-verdelingswaarschijnlijkheidsfunctie nu één parameter:

Aan lambda wordt vaak gedacht omdat het verwachte aantal gebeurtenissen binnen het interval. (We schakelen over naar het noemen van een interval, omdat we geen periode hoeven te gebruiken, we zouden oppervlakte of volume kunnen gebruiken die ons Poisson-proces ondersteunen). Ik geef er de voorkeur aan om lambda op te schrijven om mezelf eraan te herinneren dat de snelheidsparameter een functie kan zijn van zowel de typische gebeurtenissen per tijd en dus de lengte van de tijdsperiode, maar je zult het meestal zien als direct hierboven.

Als we de snelheidsparameter, λ, wijzigen, wijzigen we de waarschijnlijkheid van het zien van verschillende aantallen gebeurtenissen in één interval. De onderstaande grafiek is dat de waarschijnlijkheidsfunctie van de Poisson-verdeling de waarschijnlijkheid van verschillende gebeurtenissen in een interval met verschillende snelheidsparameters laat zien.

Het meest waarschijnlijke aantal gebeurtenissen binnen het interval voor elke curve is dat de snelheidsparameter. Dit is verstandig omdat de snelheidsparameter is dat het verwachte aantal events binnen het interval en dus wanneer het een geheel getal is, de snelheidsparameter het aantal events met de beste waarschijnlijkheid zal zijn.

Als het geen geheel getal is, zal het allerbeste waarschijnlijkheidsaantal gebeurtenissen het dichtst bij de snelheidsparameter liggen, omdat de Poisson-verdeling slechts voor een discreet aantal gebeurtenissen is gedefinieerd. De discrete aard van de Poisson-verdeling is bovendien de reden waarom dit vaak een kansmassafunctie is en geen dichtheidsfunctie. (De snelheidsparameter is bovendien het gemiddelde en de variantie van de verdeling, die geen gehele getallen hoeven te zijn).

We kunnen de Poisson-verdelingsmassa-functie gebruiken om de waarschijnlijkheid van het waarnemen van verschillende gebeurtenissen over een door een Poisson-proces gegenereerd interval op te sporen. Een ander gebruik van de massafunctievergelijking – zoals we later zullen zien – is het zoeken naar de waarschijnlijkheid van het even wachten tussen de gebeurtenissen.

Een uitgewerkt voorbeeld

Overigens lossen we het op met een Poisson-distributie, we zouden door kunnen gaan met websitestoringen, maar ik stel iets grootser voor. In mijn jeugd nam mijn vader me vaak mee naar onze tuin om naar meteorenbuien te kijken (of te proberen te kijken). We waren geen ruimtegekken, maar het kijken naar objecten uit de ruimte die we in de lucht doorbrachten was genoeg om ons naar buiten te lokken, hoewel meteorenbuien altijd binnen de koudste maanden leken voor te komen.

Het aantal geziene meteoren is vaak gemodelleerd als een Poisson-verdeling omdat de meteoren onafhankelijk zijn, het typische aantal meteoren per uur is constant (op de korte termijn), en – dit is vaak een benadering – meteoren komen niet tegelijkertijd voor. Om de Poisson-verdeling te karakteriseren is het enige wat we willen is dat de tariefparameter die is dat het aantal gebeurtenissen/interval * intervallengte. Van wat ik me herinner , werd ons verteld om 5 meteoren per uur te verwachten op het gemiddelde of 1 om de 12 minuten . dankzij het beperkte geduld van een jong kind (vooral op een bevriezende nacht) , we zijn nooit buiten gebleven heel uur , dus we zullen dat gebruiken omdat de periode van de tijd . Het bij elkaar zetten van de 2, krijgen we:

Wat betekent “5 meteoren verwacht” precies? Nou, in overeenstemming met mijn pessimistische vader, betekende dat dat we 3 meteoren in een uur zouden zien, maximaal. In die tijd had ik geen datawetenschappelijke vaardigheden en vertrouwde ik op zijn oordeel. Nu ik ouder ben en een gezonde hoeveelheid scepsis heb ten opzichte van gezagsdragers, is het tijd om zijn uitspraak op de proef te stellen. We zullen de Poisson-distributie gebruiken om de waarschijnlijkheid van het zien van precies 3 meteoren in een uur van observatie uit te zoeken:

14% of ongeveer 1/7. Als we een week lang ‘s nachts naar buiten gingen, dan konden we verwachten dat mijn vader precies één keer gelijk had! Dat is leuk om te begrijpen, maar wat we willen is dat de verdeling, de waarschijnlijkheid van het zien van verschillende aantallen meteoren. Dit met de hand doen is vervelend, dus we gebruiken Python – die je tijdens deze Jupyter Notebook ziet – voor de berekening en visualisatie.

De onderstaande grafiek toont de Probability Mass Function voor het aantal meteoren in een uur met een gemiddelde tijd tussen de meteoren van 12 minuten (wat hetzelfde is als de 5 meteoren die in een uur verwacht worden).

Dit is wat “5 verwachte gebeurtenissen” betekent! Het meest waarschijnlijke aantal meteoren is 5, de snelheidsparameter van de verdeling. (Door een gril van de getallen hebben 4 en 5 een equivalente waarschijnlijkheid, 18%). zoals bij elke verdeling is er één vermoedelijke waarde, maar er zijn ook een goed bereik van mogelijke waarden. we zouden bijvoorbeeld 0 meteoren kunnen laten staan en zien, of we zouden er heel wat 10 kunnen zien in een uur. om de mogelijkheden van die gebeurtenissen op te zoeken, gebruiken we een equivalente vergelijking, maar dit punt berekent sommen van waarschijnlijkheden (zie het notitieboekje voor details).

We hebben het vooruitzicht om precies 3 meteoren te zien al berekend als ongeveer 14%. Het vooruitzicht om 3 of minder meteoren te zien in één uur is 27%, wat suggereert dat de waarschijnlijkheid om heel 3 te zien 73% is. Ook de kans op heel 5 meteoren is 38,4%, terwijl we in 61,6% van de waarnemingsuren 5 of minder meteoren kunnen verwachten. Hoewel het klein is, is er een kans van 1,4% om heel 10 meteoren in een uur te kunnen waarnemen!

Om deze mogelijke scenario’s te visualiseren, zullen we een experiment uitvoeren door onze zus de hoeveelheid meteoren die ze elk uur ziet 10.000 uur te laten registreren. De resultaten worden getoond in het onderstaande histogram:

Experimenteren met de snelheidsparameter

De tariefparameter, λ, is dat het enige getal dat we willen definiëren de Poisson-verdeling . Echter, aangezien het een product is van twee delen (events/interval * intervallengte) zijn er twee manieren om het te variëren: we zullen de events/interval verhogen of verlagen en dat we de intervallengte kunnen verhogen of verlagen.

Ten eerste, laten we de snelheidsparameter veranderen door het aantal meteoren per uur te verhogen of te verlagen om te bepalen hoe de verdeling wordt beïnvloed. Voor deze grafiek houden we de tijdsduur constant op uur (1 uur).

In elk geval is het meest waarschijnlijke aantal meteoren over het uur dat het verwachte aantal meteoren, de snelheidsparameter voor de Poisson-verdeling . samen bijvoorbeeld, bij 12 meteoren per uur (MPH) is onze tariefparameter 12 en is er een kans van 11% om precies 12 meteoren in 1 uur waar te nemen. Als onze tariefparameter toeneemt, moeten we altijd verwachten dat we meer meteoren per uur kunnen waarnemen.

Een andere optie is om de intervallengte te verlengen of te verkorten. Hieronder is dat hetzelfde plot, maar dit punt houden we het aantal meteoren per uur constant op 5 en veranderen we de lengte van de tijd die we waarnemen.

Het is geen verrassing dat we verwachten dat we meer meteoren zullen vaststellen hoe langer we wegblijven! Wie zei “hij die aarzelt is verdwaald” heeft duidelijk nooit naar meteorenbuien staan kijken.

Wachttijd

Een intrigerend onderdeel van een Poisson-proces is de beslissing hoe lang we aanwezig moeten zijn tot het volgende evenement (dit wordt meestal de interarrivaltijd genoemd). Denk aan de situatie: gemiddeld verschijnen er eens in de 12 minuten meteoren. Als we een willekeurige tijd bereiken, hoe lang kunnen we dan verwachten de volgende meteoor bij te wonen? Mijn vader beweerde altijd (deze keer optimistisch) dat we maar 6 minuten nodig hadden voor de primaire meteoor, wat overeenkomt met onze intuïtie. Maar als we iets geleerd hebben, is het dat onze intuïtie niet goed is voor de waarschijnlijkheid…

Ik zal de afleiding niet invoeren (die komt uit de waarschijnlijkheidsfunctievergelijking), maar de tijd die we verwachten tussen de gebeurtenissen door kan een exponentieel verval zijn. De kans dat je een bepaalde hoeveelheid tijd wacht tussen opeenvolgende gebeurtenissen neemt exponentieel af omdat de tijd toeneemt. De vervolgvergelijking toont de waarschijnlijkheid van het wachten op een bepaalde tijd.

https://miro.medium.com/max/321/1*J5wnA64Y1e4OnVXoxp1aHw.png

Waarschijnlijk meer dan een bepaalde tijd wachten.

Met ons voorbeeld hebben we 1 gebeurtenis/12 minuten, en als we de nummers verbinden krijgen we een kans van 60,65% om te wachten > 6 minuten. Zoveel voor de gok van mijn vader! Om op een ander geval te wijzen, verwachten we een half uurtje of 8,2% van de tijd aanwezig te zijn. (We moeten vaststellen dat dit vaak tussen twee opeenvolgende gebeurtenissen ligt. De wachttijden tussen de gebeurtenissen zijn minder geheugensteun, dus de tijd tussen twee gebeurtenissen heeft geen effect op de tijd tussen de andere gebeurtenissen. Deze geheugenloosheid wordt ook wel de eigenschap van Markov genoemd).

Een grafiek helpt ons om de exponentiële terugkeer van de wachttijd te zien:

https://miro.medium.com/max/2799/1*wgUevIF2MjYWefnsFSkVng.png

Er is een 100% kans op 0 minuten wachten, wat neerkomt op een bijna 0% kans op 80 minuten wachten. Nogmaals, aangezien dit vaak een verdeling is, zijn er een goed bereik van mogelijke interarrivaltijden.

Omgekeerd zullen we deze vergelijking gebruiken om de waarschijnlijkheid van wachten uit te zoeken, maar dan wel voldoende voor een bepaalde tijd:

Waarschijnlijkheid van wachten, maar of voldoende voor een bepaalde tijd.

https://miro.medium.com/max/389/1*nqqmj1IzORZhQ5VhihkaYA.png

We kunnen verwachten dat we 6 minuten of minder aanwezig zijn om een meteoor 39,4% van de tijd vast te stellen. We zullen ook de kans op een wachttijd vinden: er is een kans van 57,72% om tussen 5 en een half uur te wachten om een volgende meteoor vast te stellen.

Om de verdeling van de wachttijden te visualiseren zullen we opnieuw een (gesimuleerd) experiment uitvoeren. We simuleren de verwachting van 100.000 minuten met een gemiddelde snelheid van 1 meteoor / 12 minuten. Vervolgens ontdekken we de wachttijd tussen elke meteoor die we zien en zetten we de verdeling in kaart.

De meest waarschijnlijke wachttijd is 1 minuut, maar dat is niet de typische wachttijd. Laten we terugkomen op de primaire vraag: hoe lang kunnen we gemiddeld verwachten de eerste meteoor te zien als we een willekeurige tijd bereiken?

Om de typische wachttijd vraag te beantwoorden, zullen we 10.000 afzonderlijke proeven doen, wanneer we 100.000 minuten naar de hemel kijken. De grafiek hieronder toont de verdeling van de typische wachttijd tussen de meteoren van deze proeven:

https://miro.medium.com/max/2853/1*doL_uvKr51T0CiSBzdyv_w.png

Het gemiddelde van de tien, 000 gemiddelden lijkt 12.003 minuten te zijn. hoewel we een willekeurige tijd bereiken, is de typische tijd die we zullen verwachten voor de primaire meteoor, dat de gemiddelde tijd tussen de gebeurtenissen. In het begin is dit misschien moeilijk te begrijpen: als er gemiddeld om de 12 minuten gebeurtenissen plaatsvinden, waarom zouden we dan de hele 12 minuten moeten bijwonen voordat we één gebeurtenis zien? De oplossing is dat dit een gemiddelde wachttijd is, rekening houdend met alle mogelijke situaties.

Als de meteoren precies om de 12 minuten zouden komen, dan zou de typische tijd die we zouden moeten wachten om de primaire te bepalen 6 minuten zijn. Maar omdat dit vaak een exponentiële verdeling is, komen we soms opdagen en moeten we een uur wachten, wat zwaarder weegt dan het grotere aantal keren dat we minder dan 12 minuten wachten. Dit wordt vaak de Wachttijdparadox genoemd en kan de moeite waard zijn om te lezen.

Laten we als laatste visualisatie een willekeurige simulatie doen van 1 uur observatie.

Nou, dit punt hebben we precies gekregen wat we hadden verwacht: 5 meteoren. We moesten het kwartier bijwonen voor de primaire, aan de andere kant hadden we een eerlijk stuk vallende sterren. Een minimum van tijdens deze zaak, zou het de moeite waard zijn om het huis uit te gaan voor hemelse observatie!

https://miro.medium.com/max/2286/1*dP4kqH2vy9CGe0FF3Ovucw.png

Opmerkingen over de distributie van Poisson en Bernoulli

Een Bernoulli-verdeling wordt gebruikt om de waarschijnlijkheid te modelleren van de hoeveelheid successen die we zullen verwachten van n proeven met een waarschijnlijkheid p. De Poisson-verdeling kan een speciaal geval zijn van de Bernoulli-verdeling omdat n naar oneindig gaat terwijl het verwachte aantal successen vast blijft staan. De Poisson wordt gebruikt als een benadering van de Binomiale als n groot is en p weinig is.

Zoals bij veel ideeën in de statistiek zijn “groot” en “klein” te interpreteren. Een vuistregel is dat de Poisson-verdeling een fatsoenlijke benadering van de binomiaal kan zijn als n > 20 en np < 10. Daarom moet een muntgravure, zelfs voor 100 proeven, als binomiaal worden gemodelleerd, omdat np =50. Een callcenter dat 1 oproep per half uur over 120 minuten krijgt, kan worden gemodelleerd als een Poisson-verdeling als np = 4. Een belangrijk onderscheid kan zijn dat een binomiaal optreedt voor een harde en snelle set van proeven (het domein is discreet) terwijl een Poisson optreedt over een theoretisch oneindig aantal proeven (continue domein). dit is vaak slechts een benadering; denk eraan, alle modellen zijn fout, maar sommige zijn nuttig!

Voor meer informatie over dit onderwerp, zie de sectie Gerelateerde distributie op Wikipedia voor de Poisson-distributie. Er is hier ook een eerlijk antwoord op Stack Exchange.

Opmerkingen over meteooren/meteorieten/meteoroïden/steroïden

Meteoren zijn de strepen van de zonneschijn die je in de lucht ziet en die worden veroorzaakt door brokstukken die meteoroïden worden genoemd en die in de atmosfeer opbranden. Een meteoroïde kan afkomstig zijn van een asteroïde, een komeet of een beetje van een planeet en is meestal millimeters in diameter, maar kan vaak wel een kilometer lang zijn. Als de meteoroïde zijn reis door de dampkring overleeft en de aarde raakt, dan wordt hij een meteoriet genoemd. Asteroïden zijn veel grotere brokken gesteente die binnen de gordel om de zon draaien. Stukken asteroïden die afbreken worden meteoroïden. Hoe meer je weet!