Een uitschieter kan een stukje kennis zijn dat een abnormale afstand tot andere punten is. Met andere woorden, het zijn gegevens die buiten de tegengestelde waarden binnen de set liggen. Als je Pinocchio had tijdens een klas met jongeren, zou de lengte van zijn neus ten opzichte van de andere kinderen een buitenbeentje zijn.

In deze set van willekeurige getallen zijn 1 en 201 uitschieters:

1, 99, 100, 101, 103, 109, 110, 201

“1” is een bijzonder lage waarde en “201” is een bijzonder hoge waarde.

Uitschieters zijn niet altijd even duidelijk. Laten we zeggen dat je de volgende loonstrookjes vorige maand hebt ontvangen:

$225, $250, $25, $235.

Uw gemiddelde salaris is $135. Maar dat kleine salaris ($25) kan zijn omdat je op vakantie bent geweest, dus een wekelijks salaris van $135 is niet echt een weerspiegeling van welk aandeel je hebt verdiend. Het gemiddelde van Yoru ligt echt dichter bij $237 als je de uitschieter ($25) uit de set haalt.

Natuurlijk is het zoeken naar uitschieters niet altijd even eenvoudig. Uw dataset kan verschijnen alsof dit:

61, 10, 32, 19, 22, 29, 36, 14, 49, 3.

Je zou kunnen raden dat 3 een uitschieter kan zijn en misschien 61. Maar je zou het mis hebben: 61 is dat de enige uitschieter tijdens deze dataset.

Een doos en snorharen grafiek (boxplot) laat vaak uitschieters zien:

The outlier on this boxplot is outside of the box and whiskers.

Box and whiskers chart that includes outliers in the whiskers.

Geloof daarom niet dat het vinden van uitlopers uit een doos en snorharen grafiek. Dat gezegd hebbende, box- en snorharenkaarten zijn vaak een nuttig gizmo om ze weer te geven nadat je hebt berekend wat je uitschieters eigenlijk zijn. De meest effectieve manier om al je uitschieters te vinden is door gebruik te maken van het interkwartiel bereik (IQR). De IQR bevat het grootste deel van uw gegevens, dus uitschieters zijn vaak gemakkelijk te vinden zodra u de IQR herkent.

Hoe vindt u uitschieters met behulp van het interkwartielbereik (IQR)

Frequency chart with boxplot at the top. The outliers are shown as dots outside the range of the whiskers.

Een uitschieter wordt gedefinieerd als elk kennispunt dat meer dan 1,5 IQR onder het primaire kwartiel (Q1) of boven het derde kwartiel (Q3) in een kennisverzameling ligt.

Hoog = (Q3) + 1,5 IQR

Laag = (Q1) – 1,5 IQR

Voorbeeldvraag: Zoek de uitlopers voor de volgende dataset: 3, 10, 14, 22, 19, 29, 70, 49, 36, 32.

Stap 1: Zoek het IQR, Q1 (25e percentiel) en Q3 (75e percentiel). Gebruik onze online interkwartielbereikcalculator om de IQR te zoeken of als je het met de hand wilt berekenen, volg dan de stappen tijdens dit artikel: Interkwartielhuis in de statistiek: de manier om het te vinden.

IQR = 22

Q1 = 14

Q3 = 36

Stap 2: Vermenigvuldig het IQR dat u in stap 1 hebt gevonden met 1,5:

IQR * 1,5 = 22 * 1,5 = 33.

Stap 3: Tel de hoeveelheid die u in stap 2 tot en met Q3 van stap 1 heeft gevonden bij elkaar op:

33 + 36 = 69.

Dit is uw bovengrens. Zet dit getal opzij voor een flits.

Stap 3: Trek de hoeveelheid die u in stap 2 heeft gevonden af van Q1 uit stap 1:

14 – 33 = -19.

Dit is je ondergrens. Zet dit getal opzij voor een flits.

Stap 5: Zet de getallen uit uw dataset op volgorde:

3, 10, 14, 19, 22, 29, 32, 36, 49, 70

Stap 6: Voeg uw lage en hoge waarden toe aan uw dataset, in volgorde:

-19, 3, 10, 14, 19, 22, 29, 32, 36, 49, 69, 70

Stap 6: Markeer een willekeurig nummer onder of boven de nummers die u in stap 6 hebt ingevoegd:

-19, 3, 10, 14, 19, 22, 29, 32, 36, 49, 69, 70

Hoe vind ik Outliers met de Tukey-methode?

De Tukey-methode voor het lokaliseren van uitlopers maakt gebruik van het interkwartielbereik om zeer grote of zeer kleine aantallen te filteren. Het is praktisch een equivalent omdat de bovenstaande procedure, maar je zou mogelijk de formules iets anders geschreven zien en daarom kan de terminologie ook een beetje anders zijn. De Tukey-methode gebruikt bijvoorbeeld het concept “hekken”.

De formules zijn:

Lage uitschieters = Q1 – 1,5(Q3 – Q1) = Q1 – 1,5(IQR)

Hoge uitschieters = Q3 + 1,5 (Q3 – Q1) = Q3 + 1,5 (IQR)

Waar:

Q1 = eerste kwartiel

Q3 = derde kwartiel

IQR = Interkwartielbereik

Deze vergelijkingen bieden u twee waarden, of “hekken”. U zult ze beschouwen als een hek dat de uitlopers van alle waarden die in het grootste deel van de informatie zijn opgenomen, afgrendelt.

Voorbeeld vraag: Gebruik de methode van Tukey om uitbijters te zoeken voor de volgende set van gegevens: 1,2,5,6,7,9,12,15,18,19,38.

Stap 1: Zoek het interkwartielbereik:

Zoek de mediaan: 1,2,5,6,7,9,12,15,18,19,38.

Plaats haakjes rond de getallen boven en onder de mediaan – het maakt Q1 en Q3 makkelijker te zoeken.

(1,2,5,6,7),9,(12,15,18,19,38)

Zoek Q1 en Q3. Q1 wordt vaak gezien als een mediaan binnen de onderste helft van de info. Q3 worden vaak gezien als een mediaan voor de bovenste helft van de gegevens.

(1,2,5,6,7), 9, ( 12,15,18,19,38). Q1=5 en Q3=18.

Trek Q1 af van Q3. 18-5=13.

Stap 2: Bereken 1,5 * IQR:

1,5 * IQR = 1,5 * 13 = 19,5

Stap 3: Trek af van Q1 om je onderste hek aan te sporen:

5 – 19.5 = -14.5

Stap 4: verhoog Q3 om uw bovenste schutting aan te sporen:

18 + 19.5 = 37.5.

Stap 5: Voeg uw schuttingen toe aan uw gegevens om uitschieters te spotten:

(-14.5) 1,2,5,6,7,9,12,15,18,19,(37.5),38.

Alles wat buiten de hekken valt is een uitbijter. Voor deze gegevensset is 38 dat de enige uitschieter.