Конечные классы

Описание

Компонент Конечные классы предназначен для решения следующих задач:

  • Преобразование непрерывных и дискретных входных полей, используемых для построения моделей бинарной классификации, путем квантования на основе метода совокупности доказательств или WoE-анализа (weights of evidence, WoE). В результате каждое исходное значение признака заменяется на метку интервала квантования, в который данное значение попало. Использование результатов такого преобразования для построения моделей бинарной классификации (например, логистической регрессии), позволяет повысить их точность и устойчивость к изменению входных данных.
  • Сокращение размерности данных за счет исключения признаков с низкой значимостью, снижения разнообразия значений признаков.
  • Восстановление пропусков, когда пропуски образуют отдельную метку интервала квантования или объединяются с соседним, близким по значению WoE-индекса.
  • Борьба с выбросами и экстремальными значениями — формирование меток интервала квантования при дискретизации непрерывного поля или объединение редких уникальных значений в одну категорию позволяет решить проблему экстремальных значений и выбросов.
  • Упрощение описания исследуемых объектов.

Результатом работы узла Конечные классы является преобразование входных столбцов в последовательность интервалов, называемых конечными классами, каждому из которых присваивается определенная метка. Кроме этого, для каждого входного столбца может быть вычислен уровень значимости (отсутствует, очень низкая, низкая, средняя, высокая и очень высокая), на основе которого может производиться отбор переменных в модели бинарной классификации.

Вход

  •  Входной источник данных (таблица данных).
  •  Добавить еще один порт. Внешние диапазоны квантования (таблица данных).

Выход

  •  Выходной набор данных (таблица данных).
Структура данных:
  •  Поля исходного набора данных (значения не изменяются).
  •  <Метка столбца> Номер класса – идентификатор конечного класса, целое число (начиная с 0) – столбец создается всегда.
  •  <Метка столбца> Метка – метка конечного класса, полученная автоматическим путем (числовые границы, если это непрерывная переменная, или перечисление уникальных значений через «;», если переменная дискретная).
  •  <Метка столбца> Значимость.
  •  Параметры классов (таблица данных).
Структура данных:
  •  Группа – номер группы, к которой относится запись в таблице. Каждая группа записей ассоциирована с признаком (полем) исходного набора данных, являющимся входным для узла Конечные классы. Количество записей в группе соответствует числу конечных классов исходного столбца.
  •  Идентификатор – имя столбца, под которым он будет обрабатываться в наборе данных. Число столбцов равно числу входных полей узла Конечные классы.
  •  Метка столбца – мнемоническое обозначение входного столбца, под которым он будет виден пользователю в базе или хранилище данных. По умолчанию устанавливается название, под которым данный столбец виден в исходном наборе данных.
  •  Номер класса – порядковый номер (идентификатор), присвоенный классу при его формировании в узле Конечные классы.
  •  Уник.значение – для дискретных полей отображает их уникальные значения.
  •  Метка класса – метка класса, присвоенная ему при формировании в узле Конечные классы. Для числовых столбцов метка класса состоит из верхней и нижней границ класса (для нулевого класса указывается только нижняя граница с предлогом «от…», для класса с максимальным номером указывается верхняя граница с предлогом «до…»). Для категориальных полей, если каждый класс формируется для отдельной категории, то в качестве метки указывается эта категория. Если класс включает несколько категорий, то в метке перечисляются все категории, вошедшие в класс.
  •  Число событий – количество наблюдений в классе, для которых выходное значение – событие.
  •  Число не-событий – количество наблюдений в классе, для которых выходное значение – не-событие.
  •  Доля событий – отношение Числа событий к общему количеству Числа событий и Числа не-событий.
  •  Доля не-событий – отношение Числа не-событий к общему количеству Числа событий и Числа не-событий.
  •  Нижняя граница – для числовых признаков указывается нижняя граница интервала числом. Для категориальных признаков нижняя граница обозначается двумя категориями – верхней категорией предыдущего класса и нижней категорией текущего.
  •  Верхняя граница – для числовых признаков указывается верхняя граница интервала числом. Для категориальных признаков верхняя граница обозначается двумя категориями – нижней категорией следующего класса и верхней категорией текущего.
  •  Вес доказательствакоэффициент WoE для каждого класса.
  •  Информационный индекс – указываются значения информационных индексов IV, вычисленные по каждому входному столбцу. Сумма частных информационных индексов по каждому классу дает общий информационный индекс признака, по которому определяется его значимость.
  •  Доля класса – отношение количества наблюдений в классе к общему числу наблюдений.
  •  Верхняя граница диапазонов открыта.
  •  Предквантование – показывает применялось ли предквантование в процессе формирования конечных классов.
  •  Значимости столбцов (таблица данных).
Структура данных:
  •  Имя столбца – идентификатор столбца, под которым он будет обрабатываться в наборе данных. Число столбцов равно числу входных полей узла Конечные классы.
  •  Метка столбца – мнемоническое обозначение входного столбца, под которым он будет виден пользователю в базе или хранилище данных. По умолчанию устанавливается название, под которым данный столбец виден в исходном наборе данных.
  •  Число событий – количество событий, попавших в данный класс.
  •  Число не-событий – количество не-событий, попавших в данный класс.
  •  Доля событий – отношение Числа событий к общему количеству Числа событий и Числа не-событий.
  •  Доля не-событий – отношение Числа не-событий к общему количеству Числа событий и Числа не-событий.
  •  Всего – общее число наблюдений в классе.
  •  Информационный индекс – указываются значения информационных индексов IV, вычисленные по каждому входному столбцу.
  •  Значимость столбца – уровень значимости входного столбца, определенный на основе Информационного индекса. Может принимать значения: отсутствует, очень низкая, низкая, средняя, высокая и очень высокая.

Мастер настройки

Мастер настройки состоит из следующих шагов:

  • Настройка внешнего разбиения — появляется, если задан порт Внешние диапазоны квантования. Позволяет настроить параметры заранее настроенного внешнего разбиения.

  • Настройка назначений столбцов — позволяет задать назначение столбцам, настройки входного и выходного полей, внешнего разбиения, а также настройки алгоритма для формирования конечных классов входных полей.

  • Настройка конечных классов — позволяет просматривать начальные классы и результаты формирования конечных классов. Предназначена для внесения ручной корректировки в границы (или множества) сформированных конечных классов с целью достижения лучших результатов.


Статьи в разделе: