При разработке модели машинного обучения вы можете столкнуться с множеством проблем. Одна из распространенных проблем, связанных с выбором признаков, определяет, насколько релевантны входные признаки для прогнозируемого результата. Вы можете использовать статистические тесты, чтобы понять, как выходная переменная зависит от входной переменной. Эти тесты полезны, когда входные переменные определены. Если результат показывает, что выход независим, следует удалить входную переменную, поскольку она не имеет отношения к проблеме. Тест хи-квадрат Пирсона позволяет определить, являются ли категориальные переменные независимыми или нет.

Что такое тест хи-квадрат?

Тест хи-квадрат – это статистический метод для определения взаимосвязи между двумя переменными в аналогичном наборе данных. Мы можем понять эту концепцию на следующем примере:
Предположим, что исследователь хочет выяснить взаимосвязь между распределением студентов по факультетам на основе их CGPA. Он извлечет случайные записи о факультете за последние пять лет. Он запишет количество студентов и их CGPA, которые были доступны для данной категории, т.е. ниже 6, 6-7, 7-8, 8-9, 9-10.
Если он не смог найти никакой связи между распределением студентов и их CGPA, он должен разделить студентов поровну на разные категории. Однако, если все студенты в категории имеют CGPA более 8, то студенты ниже этого балла не попадут ни в одну категорию.

Допущения теста

Поскольку тест Chi является статистическим тестом, он включает в себя несколько допущений:
– Вы получите данные, используя случайную выборку из набора данных.
– Каждый испытуемый будет соответствовать только одной категории. Например, если вы считаете количество сотрудников, которых не было на рабочем месте только в понедельник, вы не можете включить их во вторник.
– Вам нужно собирать данные в количестве или частоте. Не рассматривайте данные в процентах.
– Данные не должны содержать групп, так как это повлияет на наблюдения.
– Вы не можете использовать критерий Хи-квадрат, если значение 20% ожидаемых частот меньше 5.

Как выполнить тест Хи-квадрат?

Выполните следующие шаги, чтобы провести тест и найти зависимые переменные:
1. Определение гипотезы
2. Создание таблицы случайных величин
3. Определение ожидаемых значений
4. Вычисление статистики хи-квадрат
5. Принятие и отклонение нулевой гипотезы

1. Определение гипотезы

Нулевая гипотеза или H1 будет означать, что обе переменные независимы. Однако вы также включите альтернативную гипотезу или H1. Она указывает на то, что обе переменные не являются независимыми.

2. Создание условной таблицы

На этом этапе вы создадите таблицу случайностей, показывающую распределение обеих переменных. Поместите первую переменную в строку, а остальные переменные – в столбец. Эта таблица поможет вам понять взаимосвязь между обеими переменными.

Таблица случайностей также будет включать степени свободы. Вы обозначите степени свободы как (r-1)x(c-1). В этом уравнении r будет строкой, а c – столбцом. Здесь:
Df = (2-1) x (2-1) = 1.
Из приведенной выше таблицы мы вычислили все наблюдаемые значения. Далее мы найдем ожидаемые значения. Для этого нам нужно найти значение Хи-квадрат и выявить взаимосвязь.

3. Определение ожидаемых значений

Согласно нулевой гипотезе, две переменные не являются зависимыми. Поэтому мы можем рассмотреть следующее уравнение, предположив, что A и B – это два разных, независимых события:

Теперь мы можем вычислить ожидаемое значение из первой ячейки. Первая ячейка включает мужчин, которые вышли из банка.

Аналогично, используя то же уравнение, мы можем определить результаты и для других ячеек. Вот результат:

4. Вычисление статистики Хи-Сукаре

Теперь мы можем определить значение Хи-квадрат, поместив рассчитанные ожидаемые и наблюдаемые значения в таблицу ниже:

В приведенной выше таблице O – наблюдаемые значения, а E – ожидаемые значения. Учитывая формулу статистики Хи-квадрат для вышеуказанного значения, мы нашли значение Хи-квадрат равным 2,22.

5. Принятие и отклонение нулевой гипотезы

Теперь мы можем проверить, следует ли принять или отвергнуть вычисленное значение Хи-квадрат с доверительной вероятностью 95%. Доверительная вероятность равна альфа, которая равна 0,05. Подставив значения, которые мы вычислили по приведенным выше формулам, мы можем узнать, следует ли принять или отвергнуть хи-квадрат.
– Степень свободы = 1 (согласно таблице случайностей)
– Альфа = 0,05
– Значение Хи-квадрат = 3,84
Значение Хи-квадрат можно найти по этой таблице.
Поскольку существует огромная разница между наблюдаемыми и ожидаемыми значениями, распределение будет падать в правую сторону.

Из приведенного выше рисунка можно понять, что значение Chi-Square колеблется между 0 и inf. Однако альфа лежит в противоположном направлении в диапазоне от 0 до 1. Если значение Хи-квадрат опускается в область ошибки, необходимо отвергнуть нулевую гипотезу. Областью ошибки будет альфа и диапазон от 0 до 0,05. Однако в приведенном выше примере значение Chi-Square меньше критического значения Chi-Square, поэтому вы примете нулевую гипотезу.

Заключение

Понимание вышеприведенного контекста о тесте Хи-квадрат даст вам ясное представление о концепции. Имейте в виду, что тест поможет вам определить связь между наблюдаемыми и расчетными значениями. Кроме того, он показывает, являются ли переменные зависимыми или независимыми. Однако вы не сможете определить, почему эти переменные являются зависимыми и какова связь между ними.