Отступлением может быть часть знаний, которая находится на ненормальном расстоянии от других точек. Другими словами, это данные, которые лежат за пределами противоположных значений внутри множества. Если бы у вас был Пиноккио во время занятия с детьми, длина его носа по сравнению с противоположными детьми была бы отклонением.

В этом наборе случайных чисел 1 и 201 – отклонения:

1, 99, 100, 101, 103, 109, 110, 201

“1” – это особенно низкое значение, а “201” – особенно высокое.

Отклонения не всегда так очевидны. Допустим, вы получили последующие зарплаты в прошлом месяце:

$225, $250, $25, $235.

Ваша средняя зарплата – 135 долларов. Но эта крошечная зарплата ($25) может быть из-за того, что вы уехали в отпуск, поэтому еженедельная средняя зарплата в $135 не является реальным отражением того, какую пропорцию вы заработали. Среднее значение йору действительно ближе к $237, если вы вычитаете из набора ($25).

Конечно, пытаться искать отклонения не всегда так просто. Ваш набор данных может выглядеть так:

61, 10, 32, 19, 22, 29, 36, 14, 49, 3.

Можно предположить, что 3 может быть выбросом, а может и 61. Но вы ошибаетесь: 61 – это единственное отклонение в этом наборе данных.

На диаграмме коробки и усов (бокплот) часто показаны отклонения:

The outlier on this boxplot is outside of the box and whiskers.

Box and whiskers chart that includes outliers in the whiskers.

Поэтому не верьте в то, что узнаете что-то из коробки и диаграммы усов. Тем не менее, коробчатые и усы диаграммы часто полезно штуковина, чтобы отобразить их после того, как вы рассчитали, что ваши выбросы на самом деле. Самое главное эффективное благодаря находить все ваши промахи являются с помощью межквартирного диапазона (IQR). IQR содержит центральную часть ваших данных, поэтому отклонения часто легко найти, как только вы узнаете IQR.

Как найти отклонения с помощью интерквартильного диапазона (IQR)

Frequency chart with boxplot at the top. The outliers are shown as dots outside the range of the whiskers.

Нарушение определяется как любая точка знания, которая находится выше 1,5 IQR ниже первичного квартиля (Q1) или выше третьего квартиля (Q3) в наборе знаний.

Высокий = (Q3) + 1,5 IQR

Низкий = (Q1) – 1,5 IQR

Вопрос-образец: Узнайте пропуски для последующего набора данных: 3, 10, 14, 22, 19, 29, 70, 49, 36, 32.

Шаг 1: Найдите IQR, Q1(25-й процентиль) и Q3(75-й процентиль). Воспользуйтесь нашим онлайн калькулятором диапазона интерквартилей, чтобы найти IQR, или, если вы хотите рассчитать его вручную, выполните шаги, описанные в этой статье: Домашний межквартильник в статистике: способ его найти.

IQR = 22

Q1 = 14

Q3 = 36

Шаг 2: Умножьте IQR, который вы нашли на шаге 1, на 1,5:

IQR * 1.5 = 22 * 1.5 = 33.

Шаг 3: Добавьте количество, которое вы нашли в Шаге 2, в Q3 с Шага 1:

33 + 36 = 69.

Это ваш верхний предел. Отложите это число для вспышки .

Шаг 3: Вычтите из шага 1 количество, которое вы нашли в шаге 2 из Q1:

14 – 33 = -19.

Это ваш нижний предел. Отложите это число для вспышки.

Шаг 5: Наведите порядок с номерами из вашего набора данных:

3, 10, 14, 19, 22, 29, 32, 36, 49, 70

Шаг 6: Вставьте низкие и высокие значения в набор данных по порядку:

-19, 3, 10, 14, 19, 22, 29, 32, 36, 49, 69, 70

Шаг 6: Выделите любое число ниже или выше цифр, которые вы вставили на Шаге 6:

-19, 3, 10, 14, 19, 22, 29, 32, 36, 49, 69, 70

Как обнаружить отклонения с помощью метода Тьюки

Метод Тьюки для локализации промахов использует межквартильный диапазон для фильтрации очень больших или очень маленьких чисел. Это практически эквивалент, потому что процедура выше, но вы, возможно, увидите формулы, написанные немного по-другому, и, следовательно, терминология также может быть немного другой. Например, в методе Тьюки используется понятие “заборы”.

Формулы таковы:

Низкие отклонения = Q1 – 1.5(Q3 – Q1) = Q1 – 1.5(IQR)

Высокие отклонения = Q3 + 1,5(Q3 – Q1) = Q3 + 1,5(IQR)

Где:

Q1 = первый квартиль

Q3 = третий квартиль

IQR = интерквартильный диапазон

Эти уравнения предлагают два значения, или “заборы”. Вы будете рассматривать их как забор, который оцепляет отклонения от всех значений, которые содержатся в основной массе информации .

Вопрос-образец: Используйте метод Тьюки для поиска отклонений для последующего набора данных: 1,2,5,6,7,9,12,15,18,19,38.

Шаг 1: Найти интерквартиль:

Найти медиану: 1,2,5,6,7,9,12,15,18,19,38.

Поместите скобки вокруг чисел выше и ниже медианы – это облегчит поиск Q1 и Q3.

(1,2,5,6,7),9,(12,15,18,19,38)

Найти Q1 и Q3. Q1 часто воспринимается как медиана в нижней половине информации. Q3 часто воспринимается как медиана для данных верхней половины.

(1,2,5,6,7), 9, ( 12,15,18,19,38). Q1=5 и Q3=18.

Вычитаем Q1 из Q3. 18-5=13.

Шаг 2: Вычислите 1,5 * IQR:

1.5 * IQR = 1.5 * 13 = 19.5.

Шаг 3: Вычитайте из Q1, чтобы вызвать нижнее ограждение:

5 – 19.5 = -14.5

Шаг 4: увеличьте Q3, чтобы побудить ваше верхнее ограждение:

18 + 19.5 = 37.5.

Шаг 5: Добавьте свои заборы к данным, чтобы заметить отклонения:

(-14.5) 1,2,5,6,7,9,12,15,18,19,(37.5),38.

Все, что находится за пределами заборов, является выбросом. Для данного набора данных 38 – это единственный выброс.