Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

W statystyce opisowej wykres słupkowy lub boxplot jest metodą graficznego przedstawiania grup danych liczbowych poprzez ich kwartyle. Działki skrzynkowe mogą mieć również linie rozciągające się pionowo od pól (wąsy) wskazujące na zmienność na zewnątrz górnego i dolnego kwartylu, stąd określenia “działka skrzynkowa” i “wykres słupkowy”. Wartości odstające mogą być wykreślone jako pojedyncze punkty. Wykresy słupkowe nie są parametryczne: wykazują zróżnicowanie w próbach populacji statystycznej, nie przyjmując żadnych założeń co do statystycznego rozkładu (chociaż boxplot Tukeya zakłada symetrię dla wąsów i normalność dla ich długości). Odstępy między poszczególnymi częściami pudełka wskazują na stopień rozproszenia (rozrzutu) i pochylenia w danych oraz pokazują wartości obce. Oprócz samych punktów, pozwalają one na wizualną ocenę różnych estymatorów L, zwłaszcza zakresu międzykwartylowego, środkowego, środkowego i trymowego. Działki skrzynkowe mogą być rysowane zarówno w poziomie jak i w pionie. Skrzynki otrzymały swoją nazwę od skrzynki w środku.

Rodzaje

Rysunek 2. Boxplot z wiskerami od minimum do maksimum

Rysunek 3. Ten sam Boxplot z trzepaczkami o maksymalnym IQR 1,5

Pudełko i kwartyle z trzepaczkami, a taśma wewnątrz pudełka jest zawsze drugim kwartylem (mediana). Ale końcówki trzepaczek mogą reprezentować kilka możliwych wartości alternatywnych, wśród nich:

minimum i maksimum wszystkich danych[1] (jak na rysunku 2)

najniższy punkt odniesienia jeszcze w obrębie 1,5 IQR dolnego kwartylu, a najwyższy punkt odniesienia jeszcze w obrębie 1,5 IQR górnego kwartylu (często nazywany Tukey boxplot) (jak na rysunku 3)

jedno odchylenie standardowe powyżej i poniżej średniej danych 9. percentyla oraz 91. percentyla 2. percentyla i 98. percentyla.

Wszelkie dane, które nie są zawarte między trzepaczkami, powinny być wykreślone jako wartość odstająca z kropką, małym okręgiem lub gwiazdą, ale czasami nie jest to robione.

Niektóre działki zawierają dodatkowy znak przedstawiający średnią danych.

Na niektórych działkach skrzynkowych na każdej z nich umieszczany jest krzyżyk, przed jego zakończeniem.

Rzadko zdarza się, aby działki w pudełkach były prezentowane bez wąsaczy.

Ze względu na tę zmienność, należy opisać konwencję stosowaną w odniesieniu do wąsów i obrzeża w podpisie pod polem powierzchni.

Niezwykłe percentyle 2%, 9%, 91%, 98% są czasami używane do krzyżowania się z wąsaczami i końcówkami wąsaczy, aby pokazać siedmiocyfrowe podsumowanie. Jeżeli dane są normalnie rozmieszczone, lokalizacje siedmiu znaków na powierzchni pudełka będą rozmieszczone w równych odstępach.

Podstawowy typ działki kazusowej, wykorzystującej pojemnik do przekazania przejścia międzykwartylowego, przedstawił Mary Eleanor Spear w 1952 roku[6] i ponownie w 1969 roku[7].

Odkąd matematyk John W. Tukey w 1969 r. rozwinął ten rodzaj wizualnej prezentacji informacyjnej, ukazane zostało kilka niewielkich odchyleń od zwyczajowej fabuły pudełkowej. Dwa z najbardziej rozpoznawalnych są działki o zmiennej szerokości i działki punktowane (patrz rys. 4).

Skrzynki o zmiennej szerokości wyznaczają wielkość każdego zbioru, którego informacje są wykreślane, poprzez określenie szerokości przypadku w stosunku do wielkości zbioru. Główny pokaz polega na tym, aby szerokość pojemnika w stosunku do kwadratowego fundamentu była równa wielkości grupy.[1]

Wyryte działki pudełka stosują “wcięcie” lub zwężenie pudełka wokół środka. Wyniki są pomocne w zaoferowaniu nieprzyjemnego podręcznika na temat rozróżniania median; jeśli tirety dwóch pól nie pokrywają się, to świadczy to o wymiernie krytycznym kontraście między medianami.[1] Szerokość tiretów odpowiada rozstępowi międzykwartylowemu (IQR) przykładu i odwrotnie – kwadratowemu fundamentowi wielkości przykładu. Niezależnie od tego, czy jest to możliwe, istnieje niepewność co do najwłaściwszego mnożnika (ponieważ może się to zmienić w zależności od podobieństwa różnic w przykładach).

 Jedną z konwencji jest stosowanie

Powierzchnia pojemnika pozwala na szybką ocenę graficzną przynajmniej jednego indeksu informacyjnego. Wykresy słupkowe mogą wydawać się bardziej surowe niż histogramy lub grubości bitów, ale mają kilka punktów zainteresowania. Zajmują one mniej miejsca i są wzdłuż tych linii szczególnie cenne dla patrzenia na rozstępy pomiędzy kilkoma zgromadzeniami lub zbiorami informacji (patrz rysunek 1 dla modelu). Decyzja o liczbie i szerokości systemów naczyń może mieć duży wpływ na obecność histogramu, a decyzja o prędkości transferu może mieć duży wpływ na obecność grubościomierza.

Ponieważ bardziej typowe jest pobieranie sandacza w mierzalnej dyspersji niż pobieranie sandacza na wykresie pojemnika, kontrastowanie wykresu przypadku z pracą gęstości prawdopodobieństwa (hipotetyczny histogram) dla zwykłego krążenia N(0,σ2) może być cennym narzędziem do zrozumienia wykresu przypadku (rys. 5).

Języki

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.