Co to jest Reguła Empiryczna?

Reguła ta w statystykach sugeruje, że wszystkie dane, które można zaobserwować, mieszczą się w trzech różnych odchyleniach standardowych średniej w normalnym rozkładzie. Możesz również znać regułę empiryczną jako regułę 68-95-99,7 lub regułę trzech sigma. Zgodnie z tą zasadą 68% danych mieści się w pierwszym odchyleniu standardowym, 95% w pierwszym i drugim odchyleniu, a 99,7% danych mieści się we wszystkich trzech odchyleniach:
68% – (µ ± σ),
95% – (µ ± 2σ)
99,7% – (µ ± 3σ)
Jeśli mamy normalny rozkład danych na wykresie na osi x, krzywa dzwonka będzie w środku. Pierwsze odchylenie standardowe obejmuje dodatnią połowę (µ + σ) i ujemną połowę (µ – σ). Obie te połówki pierwszego odchylenia standardowego będą łącznie wynosić 68%, ale jeśli uwzględnimy tylko dodatnią połowę, będzie to 34%, a ujemna połowa będzie taka sama. Podobnie, jeśli weźmiemy pod uwagę drugie odchylenie standardowe, możemy dodać dodatnią połowę pierwszego i drugą połowę z ujemną stroną obu odchyleń, czyniąc je 95% kompletnym. Zjawiska te będą takie same również w przypadku trzeciego odchylenia.

Rozkład normalny

Jest to prawdopodobnie istotny rozkład prawdopodobieństwa w statystyce. Na przykład, zbiory danych takie jak tętno, ciśnienie krwi, wzrost i IQ będą tworzyły krzywą dzwonkową rozkładu normalnego.

Symetria rozkładu normalnego

Normalny rozkład jest dla zmiennych ciągłych. Zmienne ciągłe mają nieskończone wartości. Uwzględniają one te wartości w rozkładzie. Rozkład normalny pomaga w opisie sposobu, w jaki rozmieszczasz zmienne. Większość zmiennych, danych lub obserwacji skupia się w centrum rozkładu normalnego, powodując szczyt. Dlatego większość rozkładów normalnych ma kształt dzwonka.
Co więcej, w rozkładzie normalnym średnia, mediana i tryb są równe. W środku znajduje się krzywa, która jest średnią. Jednakże, wartości lewa i prawa są równe. Możesz zdefiniować rozkład normalny za pomocą średniej i odchylenia standardowego. Są to dwa istotne czynniki, które wpływają na krzywą. 68 procent powierzchni mieści się w jednym odchyleniu standardowym średniej.

Parametry rozkładu normalnego

Mean

Średnią wartość zestawu danych można znaleźć, dodając wszystkie wartości i dzieląc sumę przez liczbę wartości.

Mediana

Kiedy zamawiasz zestaw danych od najniższej do największej, środkową wartością jest mediana.

Tryb

Trybem jest ta wartość, która pojawia się bardzo często w zbiorze danych.

Odchylenie standardowe

Odchylenie standardowe mierzy, jak szerokie są wartości danych. Symbolem odchylenia standardowego jest sigma. Odchylenie standardowe jest tylko pierwiastkiem kwadratowym wariancji. Na przykład, kiedy mierzysz roczną stopę zwrotu z inwestycji, możesz znaleźć historyczną zmienność inwestycji. To podejście jest pomiarem statystycznym lub odchyleniem standardowym.

Wariantów

Warianty mierzą również rozpowszechnienie wartości. Termin ten odnosi się jednak do tego, jak daleko liczby w zbiorze danych od średniej i innych liczb są

Z-Scores

Z-score jest liczbową reprezentacją związku pomiędzy średnią grupy a wartością. Wynik Z-score można obliczyć jako odchylenie standardowe za pomocą średniej. Gdy wynik Z-score jest równy zero, wynik średni i wynik danych są równe. Wynik Z-score może być ujemny i dodatni. Jeśli Z-score jest ujemny, to jest poniżej średniej, a jeśli Z-score jest powyżej średniej, to jest dodatni.

Zrozumienie Koncepcji 68-95-99.7 Zasada

Normalny podział danych odnosi się zazwyczaj do zasady 68-95-99.7. Można znaleźć 68% danych w pierwszym odchyleniu standardowym, 95% danych w drugim odchyleniu i 99,7% danych w trzecim odchyleniu średniej.

Funkcja gęstości prawdopodobieństwa

Aby dowiedzieć się, jaki jest procent, należy wiedzieć, co oznacza funkcja gęstości prawdopodobieństwa lub PDF. Za pomocą PDF możesz określić zmienną losową prawdopodobieństwa, która mieści się w określonym zakresie wartości, zamiast przyjmować różne wartości. Możesz obliczyć prawdopodobieństwo, wyciągając całkę zmiennej PDF z tego zakresu. Oznacza to, że obszar znajduje się w funkcji gęstości, ale pomiędzy najwyższą a najniższą wartością i ponad osią poziomą zakresu.

W pierwszym odchyleniu standardowym znajduje się 68% danych. Więc jeśli chcesz znaleźć prawdopodobieństwo lądowania punktu danych losowych w pierwszym odchyleniu standardowym, musisz obliczyć średnią danych z -1 do 1 odchylenia standardowego.

W drugim odchyleniu standardowym znajduje się 95% danych. Więc jeśli chcesz znaleźć prawdopodobieństwo losowego lądowania punktu danych w drugim odchyleniu standardowym, musisz obliczyć średnią danych z -2 do 2 odchyleń standardowych.

Trzecie odchylenie standardowe ma 99,7% danych. Więc jeśli chcesz znaleźć prawdopodobieństwo losowego lądowania punktu danych w trzecim odchyleniu standardowym, musisz obliczyć średnią danych z -3 do 3 odchyleń standardowych.

Wniosek

Możemy szybko uzyskać przybliżone oszacowanie prawdopodobieństwa danych za pomocą reguły 68-95-99,7. Możesz użyć tej metody jako prostego testu, gdy populacja danych jest normalna. Jednakże, jeżeli populacja danych nie jest normalna, możesz użyć tej metody jako testu normalności.