Met een box plot of box and whisker plot kunt u de databankverdeling weergeven op een overzicht met vijf getallen. Het eerste kwartiel Q1 is het minimum, het derde kwartiel Q3 is de mediaan, en het vijfde kwartiel Q5 is het maximum. U kunt de uitschieters en hun waarden vinden met behulp van een boxplot. U kunt ook begrijpen of uw gegevens symmetrisch zijn of niet, en strak of los, in een groep zitten of dat u scheve gegevens hebt.
Wat is een boxplot?
Een box and whisker plot bevat lijnen en boxen om de gegevens in verschillende numerieke groepen te verdelen. 50% van de centrale gegevens zal rond de centrale lijn van de box komen. Deze waarde is de mediaan. De lijnen vangen de resterende gegevens op door zich vanuit elke box uit te strekken. De stippellijnen die u rond de randen van de lijnen plaatst, zijn de uitbijters.
Enkele belangrijke termen die u moet kennen:
– Minimumscore
De minimumscore is de laagste score en omvat niet de uitschieters. Deze kolom staat aan het einde van de linker whisker.
– Onderste kwartiel
In het laagste kwartiel vindt u vijfentwintig procent van de scores. Dit is het eerste kwartiel.
– Mediaan
De mediaan is het middelpunt van de gegevens. Je geeft het weer met een lijn, die het vak in twee helften verdeelt. Je kunt dit ook het tweede kwartiel noemen. De helft van de scores is kleiner dan de mediaan, en de andere helft is groter of gelijk.
– Bovenste kwartiel
Onder de waarde van het bovenste of derde kwartiel ligt vijfenzeventig procent van de gegevens. De overige gegevens, dat wil zeggen 25% van de gegevens, blijven boven de waarde.
– Maximale score
De hoogste score vindt u aan het einde van de rechter whisker. In dit deel worden uitschieters niet uitgesloten.
– Whiskers
De bovenste 25% en de onderste 25% van de scores vertegenwoordigen scores buiten de middelste 50%.
– De interkwartielafstand (of IQR)
De interkwartielafstand van de boxplot geeft de middelste 50% weer. Dit middelste bereik omvat gegevens van 25 tot 75 procent.
Voorbeeld boxplot: De samenvatting van vijf getallen vinden
Hier zijn de gewichten van de steekproef van 101010 dozen rozijnen. De meeteenheid is gram. U moet de vijf-getalsamenvatting van deze dozen rozijnen vinden.
303030, 292929, 373737, 353535, 383838, 373737, 353535, 282828, 252525, 343434
Maak een boxplot van de gegevens
Stap 1
Rangschik alle datapunten, beginnend bij de kleinste naar de grootste. We kunnen dus beginnen met het rangschikken van de gegevens:
252525, 282828, 292929, 303030, 343434, 353535, 353535, 373737, 373737, 383838
Stap 2
Nu moet u de mediaan vinden. Om het eenvoudig te houden, de mediaan is de middelste twee getallen. Dus onze mediaan in deze gegevens zou zijn:
252525, 282828, 292929, 303030, “groot (34)3434”, “groot (35)3535”, 353535, 373737, 373737, 383838
\dfrac(30+34)(2)
=32+34 / 2 =32
Dit betekent dat de mediaan 323232 zou zijn
Stap 3
Je moet de kwartielen vinden. Je beschouwt het eerste kwartiel als de mediaan van de datapunten. Je begint bij de linkerkant van de mediaan.
252525, 282828, 2929, 303030
Q_1 = 29
Q1 = 29Q
Het begin-subscript is 1, en het eind-subscript is 29.
De mediaan van het gegevenspunt is het derde kwartiel, en de positie zal rechts van de mediaan zijn.
343434, 353535, 353535, groot(37)3737, 373737, 383838
Q_3=37
Q3=37Q
Het begin-subcript is drie, en het eind-subcript is 37.
Stap 4
Vul nu het overzicht met vijf getallen aan en vind de maximum- en minimumwaarde van het vakje.
Het kleinste gegevenspunt is de minimumwaarde. In het bovenstaande voorbeeld van de boxplot is die waarde 252525.
Het meest uitgebreide gegevenspunt is de maximumwaarde. In de bovenstaande boxplot is dat 383838.
Het overzicht van vijf getallen is dus:
252525, 292929, 323232, 373737, 383838
Vergelijking van de box and whisker plot
Met een box and whisker plot kunt u verschillen tussen verschillende groepen en steekproeven visualiseren. Door de box and whisker plot te vergelijken kunt u belangrijke statistische informatie verkrijgen, zoals uitschieters, bandbreedtes en medianen.
Stap 1: De medianen vergelijken
U moet de medianen van de afzonderlijke boxen vergelijken. Als de mediaanlijn niet in het vakje ligt, zijn de twee groepen verschillend.
Stap 2: Vergelijk de whiskers en de interkwartielafstanden van boxplots
U moet de vaklengten van de interkwartielbereiken vergelijken. Op die manier kunt u de gegevens analyseren en nagaan hoe ze over de steekproeven zijn verspreid. De spreiding van de gegevens hangt af van de lengte van de box. Aan de andere kant zal de spreiding beperkt zijn bij een klein aantal gegevens.
U moet de totale spreiding tussen twee schijven controleren, want die geeft extreme waarden aan. Bovendien geeft dit het bereik van de scores aan, wat een ander soort spreiding is. Wanneer de reikwijdten groot zijn, ontdekt u een bredere spreiding. Dit zorgt voor nog meer spreiding van de gegevens.
Stap 3: Op zoek naar de potentiële uitschieters
Wanneer u een box plot review uitvoert, beschouwt u de uitbijter als het gegevenspunt. De locatie van dit gegevenspunt zal buiten de whiskers liggen.
Stap 4: Op zoek naar tekenen van scheefheid
Nu moet u kijken naar het uiterlijk van de gegevens. Controleer of ze symmetrisch zijn of niet. Ga door elke steekproef en zoek dezelfde soort asymmetrie.
Conclusie
Met behulp van een boxplot kun je een overzicht van vijf getallen in de grafiek laten zien. Het belangrijkste doel van de grafiek is om het middengedeelte van de gegevens te laten zien. Dit middengedeelte is het interkwartielbereik. U vindt het eerste kwartiel aan het einde van het vak bij de 25%-markering, en bij de 75%-markering vindt u het derde kwartiel.
U voegt het minimum toe aan de vijf linker regionen van de grafiek. Dit verschijnt op de linker whisker aan het einde. Het minimum is het kleinste getal, terwijl het maximum, dat helemaal rechts staat, het grootste getal is. In het midden van het vakje vindt u de mediaan. Je moet naar de verticale balk kijken om de mediaan te vinden. In het echte leven zul je de box and whisker plot niet vaak gebruiken. Je kunt het echter wel gebruiken om een snelle samenvatting van de gegevens te vinden.