Качество бинарной классификации Качество бинарной классификации

Качество бинарной классификации — в этом визуализаторе строятся диаграммы и таблицы с результатами проведенной классификации на основе логистической регрессии.

Визуализатор разделен на 3 области:

Примечание: Область оценок классификации можно изменить в размерах, если потянуть за линию-разделитель левой кнопкой мыши. При двойном щелчке по линии-разделителю или одинарном посередине линии, область будет скрыта. Скрытие области возможно и для Области настроек.

Область настроек

Располагается в левой части визуализатора и содержит три группы параметров: Выбор диаграммы, Множества и Порог отсечения.

Выбор диаграммы

Группа содержит девять переключателей, каждый из которых вызывает определенную диаграмму в центре визуализатора:

  • ROC-кривая — зависимость TPR от FPR.
  • PR-кривая — зависимость TPR от PPV.
  • Базовые показатели — на диаграмме строятся графики: TPR, TNR, FPR, FNR, и отображается порог отсечения.
  • Диаграмма точности — на диаграмме строятся графики PPV, NPV, OPR, OCR, и отображается порог отсечения.
  • Диаграмма равновесия — на диаграмме строятся графики PPV, TPR, и отображается порог отсечения.
  • % распознанных событий — в зависимости от проставленного флажка Кумулятивная показывает:
    • ☑ — кумулятивный % событий от общего числа событий в зависимости от размера выборки.
    • ☐ — % событий, находящихся в диапазоне, от общего числа событий в зависимости от номера диапазона.
  • Диаграмма роста — в зависимости от проставленного флажка Кумулятивная показывает:
    • ☑ — кумулятивное значение Lift (Роста) в зависимости от размера выборки.
    • ☐ — значения Lift (Роста) для диапазона в зависимости от номера диапазона.
  • Диаграмма отклика — в зависимости от проставленного флажка Кумулятивная показывает:
    • ☑ — кумулятивный % событий в выборке в зависимости от размера выборки.
    • ☐ — % событий в диапазоне в зависимости от номера диапазона.
  • Диаграмма выигрыша — показывает значение Gain (Выигрыш) в зависимости от размера выборки.

Примечание: посмотреть расшифровку сокращений можно в статье Метрики качества моделей бинарной классификации.

Чекбокс Кумулятивная становится активным при выборе диаграмм: % распознанных событий, Диаграмма роста и Диаграмма отклика. По умолчанию флажок на чекбоксе проставлен, при снятии флажка становится доступным выбор диапазонов в выпадающем списке. Доступные значения:

  • 10 диапазонов — разделяет множество на 10 равных частей. Данный набор диапазонов используется по умолчанию.
  • 20 диапазонов — разделяет множество на 20 равных частей.
  • 50 диапазонов — разделяет множество на 50 равных частей.

Априорная доля событий

Возможно использование поправки на априорную вероятность, определенную в мастере настроек узла "Логистическая регрессия" до того, как будут получены результаты обработки данных с помощью классификатора. Для этого необходимо, чтобы флажок "Априорная доля событий" был проставлен. Использование поправки на априорную вероятность может изменить количество правильно классифицированных событий и не-событий, что приведёт к изменению значений в таблице с оценками классификации и в матрице ошибок. Если после проставления или снятия флажка "Априорная доля событий" никаких изменений не произошло, то необходимо проверить корректность настроек "Поправки на долю событий" в мастере настройки "Логистической регрессии". После внесения изменений в настройки узел необходимо переобучить.

Множества

Содержит два флажка:

  • Обучающее — при проставленном флажке отображает на диаграмме график обучающего множества;
  • Тестовое — при проставленном флажке отображает на диаграмме график тестового множества.

Возможен выбор только одного множества для диаграмм: Базовые показатели, Диаграмма точности и Диаграмма равновесия.

Порог отсечения

Представляет собой выпадающий список, содержащий следующие значения:

  • Из настроек узла — используется порог, заданный узлом Логистическая регрессия.
  • Заданный — дает возможность задать свой порог отсечения. Порог вводится, или в поле Значение порога, или задается перемещением ползунка под полем.
  • Баланс (TPR = TNR) — задает порог отсечения, при котором TPR и TNR равны.
  • Максимум (TPR + TNR) — задает порог отсечения, при котором сумма TPR и TNR имеет максимальное значение.
  • Точка равновесия (TPR = PPV) — задает порог отсечения, при котором TPR и PPV равны.
  • Максимум общей точности — задает порог отсечения, при котором значение OCR максимально.
  • Максимум F1 Score — задает порог отсечения, при котором значение F1 Score максимально.
  • Коэффициент Мэтьюса (MCC) — задает порог отсечения, при котором значение MCC максимально.

Область диаграммы

Область содержит следующие элементы:

  • Заголовок — выводит название отображаемой диаграммы.
  • Событие — выводит метку выходного поля и значение, являющееся событием.
  • Диаграмма — выводит в центр диаграмму, которая всегда расположена в центре области, и имеет одинаковую высоту и ширину.
  • Легенда — содержит названия серий, выводимых на диаграмме. При нажатии на серию в легенде можно скрыть или показать ее на диаграмме.

Примечание: в зависимости от свободного пространства области легенда будет располагаться под диаграммой или справа от нее.

Области оценок классификации

Располагается в правой стороне экрана и содержит таблицы, описывающие результаты классификации. Данные в этих таблицах обновляются с изменением Порога отсечения.

Оценки классификации

Таблица содержит столбцы:

  • Показатель — отображает название рассчитанного элемента.
  • Множества — группа из двух столбцов:
    • Обучающее — в столбце выводятся значения оценки показателей, рассчитанных для обучающего множества.
    • Тестовое — в столбце выводятся значения оценки показателей, рассчитанных для тестового множества.

Таблица разделена на две части и имеет следующие строки:

  • Оценки классификации — эта часть содержит оценки, которые рассчитываются для всей модели и не зависят от Порога отсечения:
  • Порог отсечения — в этой части расположены оценки, зависящие от Порога отсечения. Название порога выводится после двоеточия, например, Порог отсечения: Заданный:
    • Значение — выводит используемое значение Порога отсечения.
    • TPR (Чувствительность) — выводит значение TPR при используемом пороге.
    • TNR (Специфичность) — выводит значение TNR при используемом пороге.
    • FPR (1-Специфичность) — выводит значение FPR при используемом пороге.
    • PPV — выводит значение PPV при используемом пороге.
    • F1 Score — выводит значение F1 Score при используемом пороге.
    • MCC — выводит значение коэффициента корреляции Мэтьюса при используемом пороге.

Примечание: если множество данных отсутствует, то соответствующие ему ячейки таблиц будут серыми, и в них ничего не будет выводиться.

Матрицы ошибок

Содержит матрицы ошибок для обучающего и тестового множества и имеет следующий вид:

КлассифицированоФактическиИтого
СобытиеНе-событие
МножествоPN
СобытиеTPFPTP+FP
Не-событиеFNTNFN+TN

Примечание: над верхним правым углом таблицы расположен переключатель  / Абсолютные или относительные значения, при переключении которого данные в таблице будут представлены в процентах или в количестве записей, попавших в категорию.

Распознано

В данной таблице показано отношение правильно распознанных событий к общему количеству событий во множествах. Таблица состоит из двух полей:

  • Множество — в этом столбце отображается тип множества.
  • Распознано — количество распознанных событий от общего числа событий. Определяется по формуле

Примечание: над верхним правым углом таблицы расположен переключатель  / Абсолютные или относительные значения, при переключении которого данные в таблице будут представлены в процентах или в количестве записей, попавших в категорию.