Процесс классификации помогает распределить набор данных по различным классам. Модель машинного обучения позволяет это сделать:
– сформулировать проблему,
– Соберите данные,
– Добавьте переменные,
– Обучи модель,
– Измерьте производительность,
– Усовершенствуйте модель с помощью функции затрат.
Но как измерить производительность модели? Сравнивая прогнозируемую и фактическую модель? Однако это не решит проблему классификации. Матрица путаницы может помочь вам проанализировать данные и решить проблему. Давайте разберемся, как эта методика помогает модели машинного обучения.

Путаница

Метод матричной путаницы помогает в измерении производительности для классификации машинного обучения. С помощью этого типа модели можно различать и классифицировать модель с известными истинными значениями на наборе тестовых данных. Термин “матрица путаницы” является простым и в то же время запутанным. Данная статья упростит концепцию, так что вы сможете легко разобраться в ней и самостоятельно создать матрицу путаницы.

Расчет путаницы

Следуйте этим простым шагам для расчета путаницы в матрице поиска данных:

Шаг 1

Оцените итоговые значения набора данных.

Шаг 2

Тестировать набор данных с помощью ожидаемого вывода.

Шаг 3

Прогнозируйте строки в вашем тестовом наборе данных.

Шаг 4

Рассчитать ожидаемые результаты и прогнозы. Вам необходимо рассмотреть:
– Полностью верные прогнозы класса
– Полностью неверные прогнозы класса
После выполнения этих шагов необходимо упорядочить номера в приведенных ниже методах:
– Связать каждую строку матрицы с прогнозируемым классом
– Соответствие каждого столбца матрицы фактическому классу
– Введите в таблицу правильную и неправильную классификацию модели.
– Включите общую сумму правильных прогнозов в колонку “Прогноз”. Также добавьте значение класса в ожидаемую строку.
– Включите суммарное количество неверных прогнозов в ожидаемую строку и значение класса в прогнозируемом столбце.

Понимание результата в матрице путаницы.

1. Истинный Положительный

Фактические и прогнозируемые значения одинаковы. Прогнозируемое значение модели является положительным наряду с фактическим положительным значением.

2. Истинный Отрицательный

Фактические и прогнозируемые значения одинаковы. Прогнозируемое значение модели является отрицательным наряду с фактическим отрицательным значением.

3. Ложноположительный (Ошибка типа 1).

Фактические и прогнозируемые значения не совпадают. Прогнозируемое значение модели является положительным и ложно прогнозируемым. Однако фактическое значение является отрицательным. Это можно назвать ошибкой типа 1.

4. Ложный отрицательный (Ошибка по типу 2).

Фактические и прогнозируемые значения не совпадают. Прогнозируемое значение модели отрицательно и ложно спрогнозировано. Однако фактическое значение является положительным. Эту ошибку можно назвать ошибкой по типу 2.

Важность путаницы

Прежде чем ответить на вопрос, необходимо понять гипотетическую проблему классификации. Предположим, вы предсказываете количество людей, зараженных вирусом, прежде чем проявить симптомы. Таким образом, вы сможете легко их изолировать и обеспечить здоровое население. Мы можем выбрать две переменные для определения целевой популяции: Зараженные и незараженные.
Теперь вы можете подумать, зачем использовать матрицу путаницы, когда переменные слишком просты. Ну, эта техника помогает с точностью классификации. Данные в этом примере – это несбалансированный набор данных. Предположим, что у нас 947 отрицательных точек данных и три положительных точки данных. Теперь вычислим точность по этой формуле:

С помощью следующей таблицы можно проверить точность:

Суммарные выходные значения будут:
TP = 30, TN = 930, FP = 30, FN = 10.
Таким образом, вы можете вычислить точность модели как:

96% точность для модели невероятна. Но вы можете сгенерировать только неверную идею из результата. По этой модели можно предсказать зараженных людей 96% времени. Однако, по расчетам, 96% населения не будет инфицировано. Однако, больные люди все еще распространяют вирус.
Похожа ли эта модель на идеальное решение проблемы, или мы должны измерить положительные случаи и изолировать их, чтобы остановить распространение вируса. Поэтому мы используем путаницу в матрице для решения такого рода проблем. Вот некоторые преимущества путаницы:
– Матрица помогает с классификацией модели при предсказании.
– Эта техника обозначает тип и понимание ошибок, чтобы вы могли легко разобраться в этом случае.
– Вы можете преодолеть это ограничение с помощью точной классификации данных.
– Столбцы матрицы путаницы будут представлять экземпляры прогнозируемого класса
– В каждой строке будут указаны экземпляры реального класса
– Матрица путаницы выделит ошибки, которые классификатор

Путаница в Питоне

Теперь, когда вы знаете концепцию матрицы замешательства, вы можете практиковаться, используя следующий код на Python с помощью библиотеки “Scikit-learn”.
# матрица замешательства в склирне
матрица fromsklearn.metricsimportconfusion_matrix
fromsklearn.metricsimportclassification_report

# фактические значения
фактический = [1,0,0,1,0,0,1,0,0,1]
# прогнозные значения
предсказано = [1,0,0,1,0,0,0,1,0,0]

# матрица путаницы
матрица =confusion_matrix(actual,predicted, labelels=[1,0])
print(‘Confusion matrix : \n’,matrix)

# порядок значений результатов в склирне
tp, fn, fp, tn=confusion_matrix(actual,predicted,labels=[1,0]).reshape(-1)
print(‘Outcome values : \n’, tp, fn, fp, tn )

# классификационный отчет по точности, отзыв f1-скопа и точность
матрица =classification_report(actual,predged,labelels=[1,0])
print(‘Classification report: \n’,matrix)

Заключение

Матрица путаницы помогает ограничить точность метода классификации. Кроме того, она выделяет важные детали различных классов. Кроме того, она анализирует переменные и данные, чтобы можно было сравнить фактические данные с прогнозом.