Измерение эффективности имеет важное значение для машинного обучения. ROC или “Область под кривой”/AUC помогает нам решать проблемы, с которыми мы сталкиваемся при классификации. При проверке или визуализации различных классификаций модели мы используем эти метрики или кривые для оценки результатов. ROC – это сокращение от “эксплуатационные характеристики приемника”, а AUC – это “область под кривой”. Мы также можем написать этот термин как AUROC или область под операционными характеристиками приемника.

Область под кривой (AUC)

AUC помогает в сравнении различных классификаторов. Вы можете суммировать, как каждый классификатор работает в одном измерении. Основной подход к поиску AUC заключается в расчете AUROC. Это похоже на вероятность того, что случайный отрицательный экземпляр будет ниже положительного. Если в классификаторе AUC ниже, чем в другом классификаторе, то это обычно означает, что оценка высокой AUC не является хорошей. Однако AUC хорошо работает при общем измерении точности прогнозирования.

Некоторые важные терминологии

– Путаница

Когда выходных классов больше одного, можно использовать измерение путаницы для решения проблем классификации машинного обучения. Таблица матрицы путаницы включает четыре различных комбинации фактических и прогнозируемых значений. Вы можете использовать эту методику для измерения специфичности, точности, напоминания, точности, а также для темы, которую мы обсуждаем сегодня – AUC и ROC кривая. Давайте разберемся с терминами, которые содержит путаница в матрице, на примере беременности:

Истинный Положительный

Интерпретация истинного положительного заключается в том, что вы предсказываете положительное, и это истинное утверждение. Например, женщина беременна, и вы предсказываете то же самое.

Истинный Отрицательный

Интерпретация истинного негатива заключается в том, что вы предсказываете негатив, и это истинное утверждение. Например, мужчина не беременен, и вы предсказываете то же самое.

Ложноположительный

Ложно-положительная интерпретация заключается в том, что вы предсказываете положительное, и это не является истинным утверждением. Например, мужчина не беременен, но вы предсказываете, что он беременен. Это предсказание является ошибкой 1-го типа.

Ложный отрицательный

Истинная негативная интерпретация заключается в том, что вы предсказываете негатив, и это не является истинным утверждением. Например, женщина не беременна, но вы предсказываете, что она беременна. Это предсказание является ошибкой 2-го типа.
Вы должны помнить, что фактические значения истинны и ложны, а предсказанные вами значения положительны и отрицательны.

– Чувствительность и конкретность

Различные домены измеряют чувствительность и специфичность в совокупности. Однако это отдельные меры. Вы можете использовать чувствительность и специфичность для прогнозирования эффективности классификации модели. Кроме того, вы также можете использовать эти меры для выполнения диагностического теста.
Например, если мы хотим измерить, насколько эффективен диагностический тест в медицинском состоянии:
– Чувствительность измерит, сколько людей страдают от болезни или сколько положительных.
– Специфичность будет измерять, сколько людей не страдают от болезни или сколько являются отрицательными.

– Логистическая регрессия

Логистическая регрессия – это алгоритм, который можно использовать в машинном обучении для решения проблем классификации. Этот алгоритм является прогнозным анализом, вероятностью и его концепцией. Вы также можете назвать этот алгоритм линейной регрессионной моделью. Однако, линейная регрессия имеет сложную стоимостную функцию по сравнению с логистической регрессией. Стоимость логистической регрессии можно определить как сигмоидальную функцию или логистическую функцию.
Гипотеза в данном алгоритме ограничит стоимостную функцию от нуля до единицы. Однако линейная функция представляет ее как большую или меньшую, чем ноль. Против гипотезы логистической регрессии такое условие невозможно.

Понимание концепции

Создание ROC кривой

Вы можете построить ROC-кривую, поместив TPR или истинный положительный курс и FPR или ложный положительный курс друг против друга. Истинная положительная скорость – это наблюдения, которые вы правильно предсказываете как положительные из всех положительных наблюдений. Математическое представление таково:
TP/(TP + FN)
Точно так же, ложноположительный показатель – это наблюдения, которые вы неправильно предсказываете как положительные из всех отрицательных наблюдений. Математическое представление таково:
FP/(TN + FP)
Например, при проведении медицинского теста на заболевание, скорость, при которой вы правильно идентифицируете людей для получения положительных результатов, является истинно положительной скоростью.
Вы можете получить только одну точку в пространстве ROC, если классификатор вернет только ваш класс прогнозирования. Однако, когда классификаторы являются проблематичными и имеют оценку или вероятность, которая принадлежит одному классу, а не другим, вы можете создать кривую с различным порогом оценки. Вы можете преобразовать различные дискретные классификаторы в классификаторы оценки, найдя их статистику. Например, можно найти класс узла листа через доли узлов.

Интерпретация кривой ROC

Кривая ROC означает корректировку между FPR (специфичность) и TRP (чувствительность). Классификатор в левом верхнем углу указывает, что эффективность работы лучше. В качестве стандарта вы будете получать баллы от случайного классификатора между диагоналями.
FPR=TRP
Можно сказать, что тест менее точный, если кривая находится ближе к 45 градусам пространства ROC.
ROC не зависит от распределения классов. Поэтому вы можете оценить редкие события с помощью прогностических классификаторов, таких как катастрофа или болезнь. По сравнению с этим, точность следующего уравнения поможет классификаторам, которые в основном предсказывают отрицательные результаты для редкого состояния или события.
(TP +TN)/(TP + TN + FN + FP)

Заключение

Вы можете использовать кривую ROC для машинного обучения и других секторов и отраслей промышленности, чтобы найти редкие условия, которые не имеют соответствующих классификаторов. Вам необходимо предсказать классификаторы и определить, находится ли кривая вдоль 45 градусов зоны УОП. Медицинские секторы нашли эффективные результаты и результаты редких заболеваний.