Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

In de beschrijvende statistiek is een boxplot of boxplot een methode om groepen numerieke gegevens grafisch weer te geven door middel van hun kwartielen. Boxplots kunnen ook lijnen hebben die zich verticaal uitstrekken van de boxen (snorharen) en die de variabiliteit buiten de bovenste en onderste kwartielen aangeven, vandaar de termen box-and-whisker plot en box-and-whisker-diagram. Uitschieters kunnen als afzonderlijke punten worden uitgezet. Boxplots zijn niet-parametrisch: ze geven variatie weer in de steekproeven van een statistische populatie zonder aannames te doen over de onderliggende statistische verdeling (hoewel Tukey’s boxplot uitgaat van symmetrie voor de snorharen en normaliteit voor hun lengte). De afstanden tussen de verschillende delen van de doos geven de mate van dispersie (spreiding) en scheefheid in de gegevens aan, en laten uitschieters zien. Naast de punten zelf maken ze het mogelijk om verschillende L-stimatoren visueel in te schatten, met name het interkwartiel bereik, het middenscharnier, het bereik, het middenscharnier en de trimean. Boxplots kunnen zowel horizontaal als verticaal worden getekend. Box plots kregen hun naam van de box in het midden.

Types

Figuur 2. Boxplot met snorharen van minimum tot maximum

Figuur 3. Zelfde Boxplot met snorharen met maximaal 1,5 IQR

De doos en de snorharen plotten kwartielen, en de band in de doos is altijd het tweede kwartiel (de mediaan). Maar de uiteinden van de snorharen kunnen verschillende mogelijke alternatieve waarden vertegenwoordigen, waaronder:

het minimum en maximum van alle gegevens[1] (zoals in figuur 2)

het laagste nulpunt nog steeds binnen 1,5 IQR van het onderste kwartiel, en het hoogste nulpunt nog steeds binnen 1,5 IQR van het bovenste kwartiel (vaak de Tukey boxplot genoemd) (zoals in figuur 3)

een standaardafwijking boven en onder het gemiddelde van de gegevens het 9e percentiel en het 91e percentiel het 2e percentiel en het 98e percentiel.

Alle gegevens die niet tussen de snorharen zijn opgenomen moeten worden uitgezet als een uitschieter met een punt, kleine cirkel of ster, maar af en toe wordt dit niet gedaan.

Sommige boxplots bevatten een extra karakter om het gemiddelde van de gegevens weer te geven.

Op sommige boxplots wordt op elke snorhaar een kruisje geplaatst, voor het einde van het snorhaar.

Zelden kunnen box plots worden gepresenteerd zonder snorharen.

Vanwege deze variabiliteit is het toepasselijk om de conventie die gebruikt wordt voor de snorharen en uitlopers te beschrijven in het onderschrift van de plot.

De ongebruikelijke percentielen 2%, 9%, 91%, 98% worden soms gebruikt voor snorharen en snorharen eindigt om de zevencijferige samenvatting te laten zien. Als de gegevens normaal gesproken worden verdeeld, zullen de locaties van de zeven merktekens op de doos plot op gelijke afstand van elkaar staan.

Het fundamentele type van de kofferplot, waarbij gebruik wordt gemaakt van een container om het interkwartiel door te geven, werd gepresenteerd door Mary Eleanor Spear in 1952[6] en opnieuw in 1969[7].

Sinds de wiskundige John W. Tukey in 1969 dit soort visuele informatieverzameling heeft gepromoot, zijn er een paar kleine afwijkingen van de gebruikelijke kofferplot geportretteerd. Twee van de meest bekende zijn boxplots met variabele breedte en gescoorde boxplots (zie figuur 4).

Variabele breedte boxplots geven de grootte aan van elke verzameling waarvan de informatie wordt geplot door de breedte van de zaak ten opzichte van de grootte van de verzameling te maken. Een mainstream show is het maken van de container breedte ten opzichte van de vierkante basis van de grootte van de groep.[1]

De gescoorde vakjes passen een “inspringing” of vernauwing van de koffer toe rond het midden. Scores zijn nuttig in het aanbieden van een onaangename handleiding voor het opmerkelijk onderscheiden van medians; als de streepjes van twee dozen niet dekken, biedt dit het bewijs van een meetbaar kritisch contrast tussen de medians.[1] De breedte van de streepjes komt overeen met de interkwartieluitbreiding (IQR) van het voorbeeld en omgekeerd ten opzichte van het vierkante grondvlak van de grootte van het voorbeeld. Hoe dan ook, er is kwetsbaarheid over de meest juiste vermenigvuldigingsfactor (aangezien dit kan veranderen afhankelijk van de gelijkenis van de verschillen van de voorbeelden

Een conventie is te gebruiken

De containerplot maakt een snelle grafische beoordeling van ten minste één informatieve index mogelijk. Boxplots kunnen grover lijken dan een histogram of bitdiktemeter, maar ze hebben wel een paar aandachtspunten. Ze nemen minder ruimte in beslag en zijn in die zin bijzonder waardevol voor het bekijken van verspreidingen tussen enkele verzamelingen of verzamelingen van informatie (zie figuur 1 voor een model). Beslissingen over het aantal en de breedte van de houders kunnen een grote invloed hebben op de aanwezigheid van een histogram, en beslissingen over de overdrachtssnelheid kunnen een grote invloed hebben op de aanwezigheid van een stukdiktemeter.

Aangezien het nemen van een staafdiameter bij een meetbare dispersie typischer is dan het nemen van een staafdiameter bij een containerplot, kan het vergelijken van het diagram van de casus met de waarschijnlijkheid van diktewerk (hypothetisch histogram) voor een gewone N(0,σ2)-circulatie een waardevol instrument zijn om het diagram van de casus te begrijpen (zie figuur 5).

Talen

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.