Wat is de Empirische Regel?

Deze regel in de statistiek suggereert dat alle gegevens die je kunt waarnemen onder drie verschillende standaardafwijkingen van het gemiddelde vallen in een normale verdeling. U kent de empirische regel misschien ook wel als de 68-95-99,7-regel of de 3-sigma-regel. Volgens de regel zal 68% van de gegevens in de eerste standaarddeviatie vallen, 95% in de eerste en de tweede deviatie en 99,7% van de gegevens in alle drie de deviaties:
68% – (µ ± σ),
95% – (µ ± 2σ)
99,7% – (µ ± 3σ)
Als we een normale verdeling van de gegevens op een grafiek op de x-as hebben, zal de belcurve in het midden staan. De eerste standaardafwijking omvat de positieve helft (µ + σ) en de negatieve helft (µ – σ). Deze beide helften van de eerste standaarddeviatie zullen samen 68% zijn, maar als we alleen naar de positieve helft kijken, zou dat 34% zijn, en de negatieve helft zou hetzelfde zijn. Op dezelfde manier kunnen we, als we de tweede standaarddeviatie in ogenschouw nemen, de positieve helft van de eerste en tweede deviatie bij elkaar optellen met de negatieve kant van beide deviaties, waardoor deze 95% compleet is. De verschijnselen zullen ook in de derde afwijking gelijk zijn.

Normale verdeling

Dit is waarschijnlijk een essentiële verdeling van de kansen in de statistieken. Bijvoorbeeld, gegevensreeksen zoals hartslag, bloeddruk, hoogte en IQ-scores zullen een bell-curve van normale verdeling vormen.

De symmetrie van de normale verdeling

De normale verdeling is voor continue variabelen. Ononderbroken variabelen hebben oneindige waarden. Zij nemen deze waarden op in de verdeling. Een normale verdeling helpt bij het beschrijven van de manier waarop je de variabelen verdeelt. De meeste variabelen, gegevens of waarnemingen clusteren zich naar het centrum in een normale verdeling, waardoor een piek ontstaat. Daarom hebben de meeste normale verdelingen een klokvorm.
Bovendien zijn bij een normale verdeling het gemiddelde, de mediaan en de modus gelijk. Er is een curve in het centrum, die het gemiddelde is. De linker- en rechterwaarden zijn echter gelijk. Je kunt de normale verdeling definiëren door het gemiddelde en de standaardafwijking. Dit zijn de twee essentiële factoren die de kromme beïnvloeden. 68 procent van het oppervlak valt onder een enkele standaardafwijking van het gemiddelde.

Parameters van de normale verdeling

Betekenis

We kunnen het gemiddelde van de gegevensset vinden door alle waarden bij elkaar op te tellen en het totaal te delen door het aantal waarden.

Mediaan

Wanneer u de dataset bestelt van de laagste naar de grootste, is de middenwaarde de mediaan.

Modus

De modus is die waarde die heel vaak voorkomt in de dataset.

Standaardafwijking

De standaardafwijking meet hoe wijdverbreid de waarden van de gegevens zijn. Het symbool van de standaardafwijking is sigma. De standaardafwijking is slechts de vierkantswortel van de varianties. Wanneer u bijvoorbeeld het jaarlijkse rendement van de investering meet, kunt u de historische volatiliteit van de investering vinden. Deze benadering is een statistische meting of standaardafwijking.

Varianties

Variaties meten ook de wijdverspreide waarden. Deze term verwijst echter naar hoe ver de getallen in de gegevensreeks van het gemiddelde en andere getallen zijn

Z-Scores

Z-score is een numerieke weergave van de relatie tussen het gemiddelde van een groep en de waarde. U kunt de Z-score als standaardafwijking berekenen met behulp van het gemiddelde. Wanneer de Z-score gelijk is aan nul, zijn de gemiddelde score en de datascore gelijk. De Z-score kan negatief en positief zijn. Als een Z-score negatief is, is deze onder het gemiddelde, en als de Z-score boven het gemiddelde ligt, is deze positief.

Inzicht in het concept van 68-95-99.7 Regel

De normale verdeling van de gegevens heeft meestal betrekking op de 68-95-99,7-regel. U vindt 68% van de gegevens in de eerste standaardafwijking, 95% van de gegevens in de tweede afwijking en 99,7% van de gegevens in de derde afwijking van het gemiddelde.

Waarschijnlijkheid Dichtheidsfunctie

Om het percentage te weten te komen, moet u weten wat de waarschijnlijkheidsfunctie of PDF betekent. Met behulp van PDF kunt u de willekeurige variabele waarschijnlijkheid specificeren die in een bepaald bereik van waarden valt in plaats van een andere waarde te nemen. U kunt de waarschijnlijkheid berekenen door de integraal van de PDF van de variabele op het bereik te nemen. Dit betekent dat het gebied zich in de dichtheidsfunctie bevindt, maar tussen de hoogste en laagste waarden en over de horizontale as van het bereik.

In de eerste standaardafwijking is er 68% van de gegevens. Dus als u de waarschijnlijkheid van de landing van het willekeurige gegevenspunt in de eerste standaardafwijking wilt vinden, moet u het gemiddelde van de gegevens berekenen van -1 tot 1 standaardafwijking.

In de tweede standaarddeviatie is er 95% van de data. Dus als u de waarschijnlijkheid van de toevallige datapuntlanding in de tweede standaarddeviatie wilt vinden, moet u het gemiddelde van de gegevens van -2 tot 2 standaarddeviaties berekenen.

De derde standaarddeviatie heeft 99,7% van de gegevens. Dus als u de waarschijnlijkheid van de toevallige datapuntlanding in de derde standaarddeviatie wilt vinden, moet u het gemiddelde van de gegevens van -3 tot 3 standaarddeviaties berekenen.

Conclusie

Via de 68-95-99,7-regel kunnen we snel een ruwe schatting van de waarschijnlijkheid van de gegevens krijgen. U kunt deze methode gebruiken als een eenvoudige test wanneer de populatie van de gegevens normaal is. Als de gegevenspopulatie echter niet normaal is, kunt u deze methode gebruiken als een normaliteitstest.