Конечные классы

Описание

Обработчик Конечные классы предназначен для решения следующих задач.

  • Преобразование непрерывных и дискретных входных полей, используемых для построения моделей бинарной классификации, путем квантования на основе метода совокупности доказательств или WoE-анализа (weights of evidence, WoE). В результате каждое исходное значение признака заменяется на метку интервала квантования, в который данное значение попало. Использование результатов такого преобразования для построения моделей бинарной классификации (например, логистической регрессии), позволяет повысить их точность и устойчивость к изменению входных данных.
  • Сокращение размерности данных за счет исключения признаков с низкой значимостью, снижения разнообразия значений признаков.
  • Восстановление пропусков, когда пропуски образуют отдельную метку интервала квантования или объединяются с соседним, близким по значению WoE-индекса.
  • Борьба с выбросами и экстремальными значениями — формирование меток интервала квантования при дискретизации непрерывного поля или объединение редких уникальных значений в одну категорию позволяет решить проблему экстремальных значений и выбросов.
  • Упрощение описания исследуемых объектов.

Результатом работы обработчика Конечные классы является преобразование входных столбцов в последовательность интервалов, называемых конечными классами, каждому из которых присваивается определенная метка. Кроме этого, для каждого входного столбца может быть вычислен уровень значимости (отсутствует, очень низкая, низкая, средняя, высокая и очень высокая), на основе которого может производиться отбор переменных в модели бинарной классификации.

Вход

  • Входной источник данных (таблица данных).
  • Добавление еще одного порта. Внешние диапазоны квантования (таблица данных).

Выход

  • Выходной набор данных (таблица данных).
Структура данных:
  • Поля исходного набора данных (значения не изменяются).
  • Поле «<Метка столбца> Номер класса» – идентификатор конечного класса, целое число (начиная с 0) – столбец создается всегда.
  • Поле «<Метка столбца> Метка» – метка конечного класса, полученная автоматическим путем (числовые границы, если это непрерывная переменная, или перечисление уникальных значений через «;», если переменная дискретная).
  • Поле «<Метка столбца> Значимость».
  • Параметры классов (таблица данных).
Структура данных:
  • Группа – номер группы, к которой относится запись в таблице. Каждая группа записей ассоциирована с признаком (полем) исходного набора данных, являющимся входным для узла Конечные классы. Количество записей в группе соответствует числу конечных классов исходного столбца.
  • Идентификатор – имя столбца, под которым он будет обрабатываться в наборе данных. Число столбцов равно числу входных полей узла Конечные классы.
  • Метка столбца – мнемоническое обозначение входного столбца, под которым он будет виден пользователю в базе или хранилище данных. По умолчанию устанавливается название, под которым данный столбец виден в исходном наборе данных.
  • Номер класса – порядковый номер, присвоенный классу в при его формировании в узле Конечные классы.
  • Уник.значение – для дискретных полей отображает их уникальные значения.
  • Метка класса – идентификатор класса, присвоенный ему при формировании в узле конечные классы. Для числовых столбцов метка класса состоит из верхней и нижней границ класса (для нулевого класса указывается только нижняя граница с предлогом «от…», для класса с максимальным номером указывается верхняя граница с предлогом «до…»). Для категориальных полей, если каждый класс формируется для отдельной категории, то в качестве метки указывается эта категория. Если класс включает несколько категорий, то в метке перечисляются все, вошедшие в класс категории.
  • Число событий – количество наблюдений в классе, для которых выходное значение – событие.
  • Число не-событий – количество наблюдений в классе, для которых выходное значение – не-событие.
  • Нижняя граница – для числовых признаков указывается нижняя граница интервала числом. Для категориальных признаков нижняя граница обозначается двумя категориями – верхней категорией предыдущего класса и нижней категорией текущего.
  • Верхняя граница – для числовых признаков указывается верхняя граница интервала числом. Для категориальных признаков верхняя граница обозначается двумя категориями – нижней категорией следующего класса и верхней категорией текущего.
  • Вес доказательства – коэффициент WoE для каждого класса.
  • Информационный индекс – указываются значения информационных индексов IV, вычисленные по каждому входному столбцу. Сумма частных информационных индексов по каждому классу дает общий информационный индекс признака, по которому определяется его значимость.
  • Доля класса – отношение количества наблюдений в классе к общему числу наблюдений.
  • Верхняя граница диапазонов открыта.
  • Предквантование – показывает применялось ли предквантование в процессе формирования конечных классов.
  • Значимости столбцов (таблица данных).
Структура данных:
  • Имя столбца – идентификатор столбца, под которым он будет обрабатываться в наборе данных. Число столбцов равно числу входных полей узла Конечные классы.
  • Метка столбца – мнемоническое обозначение входного столбца, под которым он будет виден пользователю в базе или хранилище данных. По умолчанию устанавливается название, под которым данный столбец виден в исходном наборе данных.
  • Число событий – количество событий, попавших в данный класс.
  • Число не-событий – количество не-событий, попавших в данный класс.
  • Всего – общее число наблюдений в классе.
  • Информационный индекс – указываются значения информационных индексов IV, вычисленные по каждому входному столбцу.
  • Значимость столбца – уровень значимости входного столбца, определенный на основе информационного индекса. Может принимать значения: отсутствует, очень низкая, низкая, средняя, высокая и очень высокая.

Мастер настройки

Мастер настройки состоит из следующих шагов:

  • Настройка внешнего разбиения — появляется, если задан порт Внешние диапазоны квантования. Позволяет настроить параметры заранее настроенного внешнего разбиения.

  • Настройка назначений столбцов — позволяет задать назначение столбцам, настройки входного и выходного полей, внешнего разбиения, а также настройки алгоритма для формирования конечных классов входных полей.

  • Настройка конечных классов — позволяет просматривать начальные классы и результаты формирования конечных классов. Предназначена для внесения ручной корректировки в границы (или множества) сформированных конечных классов с целью достижения лучших результатов.


Статьи в разделе:

results matching ""

    No results matching ""