Матрица путаницы – это таблица, которая часто используется для описания характеристик классификационной модели (или “классификатора”) на наборе тестовых данных, для которых известны истинные значения. Сама матрица путаницы относительно проста для понимания, но связанная с ней терминология может ввести в заблуждение.

Мне нужно было сделать “оперативное управление ссылками” для формулировки рамок недоразумений, так как я не мог найти текущий актив, который соответствовал бы моим потребностям: свести к минимуму во введении, используя числа, а не самоусиливающиеся факторы, и прояснить как уравнения, так и предложения.

Как насчет того, чтобы начать с решетки модели для параллельного классификатора (однако, она, несомненно, может быть растянута до экземпляра из нескольких классов):

Example confusion matrix for a binary classifier

Что мы можем узнать из этой матрицы?

Есть два возможных ожидаемых класса: “да” и “нет”. В случае, если мы предвидели близость инфекции, например, “да” означало бы, что у них есть болезнь, а “нет” – что у них нет болезни.

Классификатор сделал сумму из 165 ожиданий (например, 165 пациентов испытывались на близость этой инфекции).

Из этих 165 случаев, классификатор ожидал “да” многократно, и “нет” многократно.

На самом деле, в данном примере инфекция есть у 105 пациентов, а у 60 – нет.

Как насчет того, чтобы охарактеризовать наиболее фундаментальные термины, которые в настоящее время являются целыми числами (а не ставками):

истинные положительные (ТП): Это случаи, в которых мы предсказали “да” (у них есть болезнь), и у них действительно есть болезнь.

истинные отрицательные (ТП): Мы предсказали нет, и у них нет болезни.

ложноположительные (ФП): Мы предсказали да, но на самом деле у них нет болезни. (Также известная как “Ошибка I типа”.)

ложно-отрицательные (ФН): Мы предсказали, что нет, но у них действительно есть болезнь. (Также известная как “Ошибка II типа”.)

Я добавил эти термины в матрицу путаницы, а также добавил общую сумму строк и столбцов:

Example confusion matrix for a binary classifier

ЧТо есть два возможных ожидаемых класса: “да” и “нет”. В случае, если мы предвидели близость болезни, например, “да” будет означать, что у них есть инфекция, а “нет” – что у них нет болезни.

Классификатор сделал сумму 165 ожиданий (например, 165 пациентов испытывались на близость этой болезни).

Из этих 165 случаев, классификатор ожидал “да” многократно, и “нет” многократно.

Как правило, 105 пациентов в данном примере имеют болезнь, а 60 пациентов – нет.

Теперь следует охарактеризовать наиболее существенные термины, которыми являются целые числа (а не коэффициенты):

истинные положительные (ТП): Это случаи, в которых мы предсказали “да” (у них есть болезнь), и у них действительно есть болезнь.

истинные негативы (ТП): Мы предсказали нет, и у них нет болезни.

ложноположительные (ФП): Мы предсказали да, но на самом деле у них нет болезни. (Также известная как “Ошибка I типа”.)

ложно-отрицательные (ФН): Мы предсказали, что нет, но у них действительно есть болезнь. (Также известная как “Ошибка II типа”.)

Я добавил эти термины в беспорядочную решетку, а также включил агрегаты линий и сегментов:не можем ли мы поучиться у этой матрицы?

Example confusion matrix for a binary classifier

Это сводка тарифов, которые регулярно обрабатываются из сети недоразумений для двойного классификатора:

Точность : Как правило, насколько регулярно выполняется классификатор?

(TP+TN)/все = (100+50)/165 = 0,91

Скорость неправильной классификации: По большому счету, насколько регулярно он ошибается?

(FP+FN)/all out = (10+5)/165 = 0.09

пропорционально 1 короткой Точности

иначе называемый “Ошибочная ставка”

ТП/реальный да = 100/105 = 0.95

иначе называется “Доступность” или “Отзыв”.

Ложно-положительная ставка: Когда тихо, как часто предполагается “да”?

ФП/реальный нет = 10/60 = 0.17

Истинная отрицательная ставка: Когда это полностью, как регулярно он предвидит “нет”?

TN/real no = 50/60 = 0.83

равна 1 короткой Ложно-положительной ставке.

иначе называемая “Ясность”

Точность: Когда он действительно предсказывает, насколько регулярно это правильно?

TP/предполагаемое да = 100/110 = 0.91

Первалентность: Насколько регулярно условие “да” действительно происходит в нашем примере?

истинное да/всегда = 105/165 = 0.64

Также стоит упомянуть пару различных терминов:

Недействительная ошибка Скорость: Это средство, с помощью которого регулярно вы не были бы правы на случай, что вы обычно ожидали львиную долю класса. (В нашей модели частота недействительных ошибок будет 60/165=0.36 в таком случае, когда вы обычно ожидали по-настоящему, вы просто не подходите для 60 случаев “нет”). Это может быть полезной метрикой для размышлений о вашем классификаторе. В любом случае, лучший классификатор для конкретного применения в некоторых случаях будет иметь более высокий коэффициент ошибок, чем коэффициент недействительных ошибок, как показано в Precision Catch 22.

Каппа Коэна: Это в основном пропорция того, насколько хорошо выполнен классификатор, когда он контрастирует с тем, насколько хорошо он бы выполнил, по существу, по некоторому совпадению. В конце концов, модель будет иметь высокий балл Kappa, если есть существенное различие между точностью и недействительной ошибкой. (Больше информации о Коэне Каппа.)

F балл: Это взвешенная норма подлинной положительной оценки (обзор) и точности. (Больше прозрений относительно балла F.)

ROC Изгиб: Это обычно используемая диаграмма, которая описывает представление классификатора над каждым возможным краем. Она создается путем сопоставления истинной положительной оценки (y-pivot) с фальшивой положительной оценкой (x-hub) по мере того, как вы изменяете предел для отнесения восприятия к данному классу. (Больше информации о изгибах ОКР).

Наконец, для тех из вас, кто представляет вселенную Байесовских прозрений, вот краткий обзор этих терминов из Прикладного Древнего Отображения:

В связи с Байесовскими измерениями, приветливость и явность являются ограничительными вероятностями, проницательность – более ранней, а положительные/отрицательные ожидаемые качества – обратными вероятностями.