Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Box plot lub box and whisker plot pomagają wyświetlić rozkład bazy danych na pięciocyfrowym podsumowaniu. Pierwszy kwartyl Q1 będzie minimum, trzeci kwartyl Q3 będzie medianą, a piąty kwartyl Q5 będzie maksimum. Możesz znaleźć wartości odstające i ich wartości za pomocą wykresu pudełkowego. Można również zrozumieć, czy dane są symetryczne czy nie, ciasne czy luźne, w grupie lub czy dane są skośne.

Co to jest wykres pudełkowy?

Box i Whisker wykres zawiera linie i pola do podziału danych na różne grupy liczbowe. 50% środkowych danych będzie się znajdować wokół środkowej linii pudełka. Wartość ta jest medianą. Linie będą przechwytywać pozostałe dane, rozciągając się od każdego pudełka. Linie przerywane, które umieścisz wokół krawędzi linii, będą wartościami odstającymi.

Kilka ważnych terminów, które powinieneś znać:

– Wynik minimalny

Wynik minimalny jest najniższym wynikiem i nie zawiera wartości odstających. Ta kolumna znajduje się na końcu lewego whiskera.

– Dolny kwartyl

W dolnym kwartylu znajduje się dwadzieścia pięć procent wyników. Jest to pierwszy kwartyl.

– Mediana

Mediana jest punktem środkowym danych. Przedstawiamy ją za pomocą linii, dzielącej pole na dwie połowy. Możesz to również nazwać drugim kwartylem. Połowa wyników jest mniejsza od mediany, a połowa jest większa lub równa.

– Kwartyl górny

Poniżej wartości górnego lub trzeciego kwartyla znajduje się siedemdziesiąt pięć procent danych. Pozostałe dane, tj. 25% danych, pozostaną powyżej tej wartości.

– Maksymalny wynik

Wyższy wynik znajduje się na końcu prawego kwartyla. Ta część nie wyklucza wartości odstających.

– Wąsy

Górne 25% i dolne 25% wyników będzie reprezentować wyniki poza środkiem 50%.

– Rozstęp międzykwartylowy (lub IQR)

Rozstęp międzykwartylowy wykresu pudełkowego będzie przedstawiał środkowe 50%. Ten środkowy zakres obejmuje dane od 25% do 75%.

Przykład wykresu pudełkowego: Znajdowanie podsumowania pięciu liczb

Oto wagi próbek 101010 pudełek rodzynek. Jednostką miary są gramy. Należy znaleźć sumę pięciu liczb dla tych pudełek rodzynek.
303030, 292929, 373737, 353535, 383838, 373737, 353535, 282828, 252525, 343434

Utwórz wykres pudełkowy z danych

Krok 1

Uporządkuj wszystkie punkty danych, zaczynając od najmniejszego do największego. Możemy więc zacząć od uporządkowania danych:
252525, 282828, 292929, 303030, 343434, 353535, 353535, 373737, 373737, 383838

Krok 2

Teraz musisz znaleźć medianę. Upraszczając, mediana to dwie środkowe liczby. Więc nasza mediana w tych danych będzie:
252525, 282828, 292929, 303030, “duży (34)3434”, “duży (35)3535”, 353535, 373737, 373737, 383838
\dfrac(30+34)(2)
=32+34 / 2 =32
Oznacza to, że mediana wyniosłaby 323232

Krok 3

Musisz znaleźć kwartyle. Za medianę punktów danych uznasz pierwszy kwartyl. Zaczniesz od lewej strony mediany.
252525, 282828, 2929, 303030
Q_1 = 29
Q1 = 29Q
Indeksem początkowym jest 1, a indeksem końcowym będzie 29.
Mediana punktu danych jest trzecim kwartylem, a pozycja będzie na prawo od mediany.
343434, 353535, 353535, ≥ 3737, 373737, 383838
Q_3=37
Q3=37Q
Indeksem początkowym jest trójka, a indeksem końcowym będzie 37.

Krok 4

Uzupełnij teraz zestawienie pięciu liczb i znajdź maksymalną i minimalną wartość pola.
Najmniejszy punkt danych będzie wartością minimalną. W powyższym przykładzie wykresu pudełkowego, wartość ta będzie wynosić 252525.
Najbardziej rozległy punkt danych będzie wartością maksymalną. W powyższym przykładzie wykresu pudełkowego, wartość ta będzie wynosić 383838.
Stąd pięcioliczbowe podsumowanie to:
252525, 292929, 323232, 373737, 383838

Porównanie wykresu skrzynkowego i wiskera

Wykres pudełkowy i wiskerowy umożliwia wizualizację różnic pomiędzy różnymi grupami i próbkami. Porównując wykres skrzynki i wiskera można uzyskać istotne informacje statystyczne, takie jak wartości odstające, zakresy i mediany.

Krok 1: Porównywanie median

Należy porównać mediany poszczególnych pudełek. Jeżeli linia mediany nie znajduje się wewnątrz pudełka, dwie grupy są różne.

Krok 2: Porównywanie wiskerów i przedziałów międzykwartylowych wykresów pudełkowych

Należy porównać długości wałów i przedziałów międzykwartylowych. W ten sposób można przeanalizować dane i sposób, w jaki rozpraszają się one pomiędzy próbkami. Rozproszenie danych zależy od długości pudełka. Z drugiej strony, dyspersja będzie ograniczona przy małej liczbie danych.
Należy sprawdzić ogólną rozpiętość pomiędzy dwoma wiskerami, ponieważ wskazuje ona wartości skrajne. Ponadto, pokaże on zakres wyników, który jest innym rodzajem dyspersji. Kiedy zakresy są duże, odkrywa się szerszą dystrybucję. To jeszcze bardziej rozproszy dane.

Krok 3: Poszukiwanie potencjalnych wartości odstających

Podczas wykonywania przeglądu wykresu pudełkowego, rozważa się punkt odstający jako punkt danych. Lokalizacja tego punktu danych będzie poza wąsami.

Krok 4: Poszukiwanie oznak skośności

Teraz należy zwrócić uwagę na wygląd danych. Sprawdź, czy są one symetryczne czy nie. Prześledź każdą próbkę i znajdź ten sam rodzaj asymetrii.

Wnioski

Za pomocą boxplot można pokazać na wykresie podsumowanie pięciu liczb. Głównym celem wykresu jest pokazanie środkowej części danych. Ta środkowa część to przedział międzykwartylowy. Pierwszy kwartyl znajduje się na końcu pola przy znaku 25%, a przy znaku 75% znajduje się trzeci kwartyl.
Dodasz minimum w pięciu lewych regionach wykresu. Pojawia się ono na końcu lewego wąsika. Minimum jest najmniejszą liczbą, podczas gdy maksimum, które znajduje się daleko po prawej stronie, jest największą liczbą. W środku pola znajduje się mediana. Aby znaleźć medianę, należy spojrzeć na pionowy pasek. W prawdziwym życiu nie będziesz używał wykresu pudełkowego i wąsowego zbyt często. Niemniej jednak, możesz użyć tego narzędzia do szybkiego podsumowania danych.

 

Języki

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.