Odchyłka może być kawałkiem wiedzy, który jest nienormalną odległością od innych punktów. Innymi słowy, są to dane, które znajdują się poza przeciwległymi wartościami w zbiorze. Gdybyś miał Pinokio w klasie młodzieży, długość jego nosa w porównaniu z przeciwległymi dziećmi byłaby wartością odstającą.

W tym zestawie liczb losowych, 1 i 201 są wartościami odstającymi:

1, 99, 100, 101, 103, 109, 110, 201

“1” to szczególnie niska wartość, a “201” to szczególnie wysoka wartość.

Wartości odstające nie zawsze są takie oczywiste. Powiedzmy, że w zeszłym miesiącu otrzymałeś kolejne czeki z wypłatą:

$225, $250, $25, $235.

Twoja średnia wypłata wynosi 135 dolarów. Ale ta malutka wypłata (25 dolarów) może wynikać z tego, że wyjechałeś na wakacje, więc tygodniowa średnia wypłata w wysokości 135 dolarów nie odzwierciedla tego, ile zarobiłeś. Średnia Yoru jest naprawdę bliższa $237, jeśli weźmiesz wyjątek ($25) z zestawu.

Oczywiście, próby poszukiwania wartości odstających nie zawsze są takie proste. Twój zestaw danych może wyglądać tak, jakbyś to robił:

61, 10, 32, 19, 22, 29, 36, 14, 49, 3.

Możesz zgadywać, że 3 może być wartością odstającą, a może 61. Ale mylisz się: 61 to jedyna wartość odstająca w tym zestawie danych.

Wykres box and whiskers (boxplot) często pokazuje wartości odstające:

The outlier on this boxplot is outside of the box and whiskers.

Box and whiskers chart that includes outliers in the whiskers.

Dlatego też, nie wierzcie, że znalezienie wartości odstających z pudełka i wykresów trzeszczących. To powiedziawszy, wykresy box i whiskers są często przydatne gizmo do wyświetlania ich po obliczeniu, co twoje odstające są rzeczywiście. Najważniejsze skuteczne dzięki znalezieniu wszystkich wartości odstających to użycie zakresu międzykwartylowego (IQR). IQR zawiera centralną część twoich danych, więc wartości odstające są często łatwe do znalezienia po rozpoznaniu IQR.

Jak znaleźć wartości odstające używając przedziału międzykwartylowego (IQR)

Frequency chart with boxplot at the top. The outliers are shown as dots outside the range of the whiskers.

Wartość odstająca jest definiowana jako każdy punkt wiedzy, który leży powyżej 1,5 IQR poniżej pierwotnego kwartylu (Q1) lub powyżej trzeciego kwartylu (Q3) w zbiorze wiedzy.

Wysoki = (Q3) + 1,5 IQR

Niski = (Q1) – 1,5 IQR

Przykładowe pytanie: Znajdź wartości odstające dla kolejnego zestawu danych: 3, 10, 14, 22, 19, 29, 70, 49, 36, 32.

Etap 1: Znajdź IQR, Q1 (25. percentyl) i Q3 (75. percentyl). Skorzystaj z naszego internetowego kalkulatora przedziału międzykwartylowego, aby wyszukać IQR, lub jeśli chcesz obliczyć go ręcznie, postępuj zgodnie z instrukcjami zawartymi w tym artykule: Dom międzykwartylowy w Statystyce: sposób na znalezienie go.

IQR = 22

Q1 = 14

Q3 = 36

Krok 2: Pomnóż IQR, który znalazłeś w kroku 1, przez 1,5:

IQR * 1,5 = 22 * 1,5 = 33.

Krok 3: Dodaj ilość, którą znalazłeś w kroku 2 do Q3 od kroku 1:

33 + 36 = 69.

To jest twoja górna granica. Odłóż tę liczbę na chwilę.

Krok 3: Odejmij ilość, którą znalazłeś w kroku 2 od Q1 z kroku 1:

14 – 33 = -19.

To jest twoja dolna granica. Odłóż tę liczbę na lampę błyskową.

Krok 5: Uporządkuj numery z Twojego zestawu danych:

3, 10, 14, 19, 22, 29, 32, 36, 49, 70

Krok 6: Wprowadź swoje niskie i wysokie wartości do swojego zestawu danych, w kolejności:

-19, 3, 10, 14, 19, 22, 29, 32, 36, 49, 69, 70

Krok 6: Zaznacz dowolny numer poniżej lub powyżej numerów wprowadzonych w kroku 6:

-19, 3, 10, 14, 19, 22, 29, 32, 36, 49, 69, 70

Jak znaleźć wartości oddalone przy użyciu Metody Tukeya

W metodzie Tukeya do lokalizacji wartości skrajnych wykorzystuje się zakres międzykwartylowy do filtrowania bardzo dużych lub bardzo małych liczb. Jest to praktycznie odpowiednik, ponieważ powyższa procedura, ale możliwe, że formuły są napisane nieco inaczej i dlatego terminologia może być również nieco inna. Na przykład, metoda Tukeya używa pojęcia “ogrodzenia”.

Sformułowania są:

Niskie wartości odstające = Q1 – 1,5(Q3 – Q1) = Q1 – 1,5(IQR)

Wysokie wartości graniczne = Q3 + 1,5(Q3 – Q1) = Q3 + 1,5(IQR)

Gdzie:

Q1 = pierwszy kwartyl

Q3 = trzeci kwartyl

IQR = zakres międzykwartylowy

Te równania oferują dwie wartości, czyli “płoty”. Będziesz je uważał za ogrodzenie, które odgradza skrajne wartości od wszystkich wartości, które są zawarte w większości informacji.

Przykładowe pytanie: Użyj metody Tukey’a, aby poszukać wartości odstających dla kolejnego zbioru danych: 1,2,5,6,7,9,12,15,18,19,38.

Krok 1: Znajdź przedział międzykwartylowy:

Znajdź medianę: 1,2,5,6,7,9,12,15,18,19,38.

Umieść nawiasy wokół liczb powyżej i poniżej mediany – ułatwi to wyszukiwanie Q1 i Q3.

(1,2,5,6,7),9,(12,15,18,19,38)

Znajdź Q1 i Q3. Q1 są często uważane za medianę w dolnej połowie informacji. Q3 są często uważane za medianę górnej połowy danych.

(1,2,5,6,7), 9, ( 12,15,18,19,38). Q1=5 i Q3=18.

Odejmij Q1 od Q3. 18-5=13.

Etap 2: Obliczyć 1,5 * IQR:

1,5 * IQR = 1,5 * 13 = 19,5

Krok 3: Odejmij Q1 od Q1, aby wepchnąć swój dolny płot:

5 – 19.5 = -14.5

Krok 4: Podnieś Q3, aby pobudzić twój górny płot:

18 + 19.5 = 37.5.

Krok 5: Dodaj swoje ogrodzenie do swoich danych, aby dostrzec wartości odstające:

(-14.5) 1,2,5,6,7,9,12,15,18,19,(37.5),38.

Wszystko, co znajduje się poza ogrodzeniem, jest wartością odstającą. Dla tego zestawu danych, 38 jest jedyną wartością odstającą.