Конечные классы Скачать в PDF
Описание
Компонент Конечные классы предназначен для решения следующих задач:
- Преобразование непрерывных и дискретных входных полей, используемых для построения моделей бинарной классификации, путем квантования на основе метода совокупности доказательств или WoE-анализа (weights of evidence, WoE). В результате каждое исходное значение признака заменяется на метку интервала квантования, в который данное значение попало. Использование результатов такого преобразования для построения моделей бинарной классификации (например, логистической регрессии), позволяет повысить их точность и устойчивость к изменению входных данных.
- Сокращение размерности данных за счет исключения признаков с низкой значимостью, снижения разнообразия значений признаков.
- Восстановление пропусков, когда пропуски образуют отдельную метку интервала квантования или объединяются с соседним, близким по значению WoE-индекса.
- Борьба с выбросами и экстремальными значениями — формирование меток интервала квантования при дискретизации непрерывного поля или объединение редких уникальных значений в одну категорию позволяет решить проблему экстремальных значений и выбросов.
- Упрощение описания исследуемых объектов.
Результатом работы узла Конечные классы является преобразование входных столбцов в последовательность интервалов, называемых конечными классами, каждому из которых присваивается определенная метка. Кроме этого, для каждого входного столбца может быть вычислен уровень значимости (отсутствует, очень низкая, низкая, средняя, высокая и очень высокая), на основе которого может производиться отбор переменных в модели бинарной классификации.
Вход
Входной источник данных (таблица данных).
Добавить еще один порт. Внешние диапазоны квантования (таблица данных).
Выход
Выходной набор данных (таблица данных).
Поля исходного набора данных (значения не изменяются).
<Метка столбца> Номер класса – идентификатор конечного класса, целое число (начиная с 0) – столбец создается всегда.
<Метка столбца> Метка – метка конечного класса, полученная автоматическим путем (числовые границы, если это непрерывная переменная, или перечисление уникальных значений через «;», если переменная дискретная).
<Метка столбца> Значимость.
Параметры классов (таблица данных).
Группа – номер группы, к которой относится запись в таблице. Каждая группа записей ассоциирована с признаком (полем) исходного набора данных, являющимся входным для узла Конечные классы. Количество записей в группе соответствует числу конечных классов исходного столбца.
Идентификатор – имя столбца, под которым он будет обрабатываться в наборе данных. Число столбцов равно числу входных полей узла Конечные классы.
Метка столбца – мнемоническое обозначение входного столбца, под которым он будет виден пользователю в базе или хранилище данных. По умолчанию устанавливается название, под которым данный столбец виден в исходном наборе данных.
Номер класса – порядковый номер (идентификатор), присвоенный классу при его формировании в узле Конечные классы.
Уник.значение – для дискретных полей отображает их уникальные значения.
Метка класса – метка класса, присвоенная ему при формировании в узле Конечные классы. Для числовых столбцов метка класса состоит из верхней и нижней границ класса (для нулевого класса указывается только нижняя граница с предлогом «от…», для класса с максимальным номером указывается верхняя граница с предлогом «до…»). Для категориальных полей, если каждый класс формируется для отдельной категории, то в качестве метки указывается эта категория. Если класс включает несколько категорий, то в метке перечисляются все категории, вошедшие в класс.
Число событий – количество наблюдений в классе, для которых выходное значение – событие.
Число не-событий – количество наблюдений в классе, для которых выходное значение – не-событие.
Доля событий – отношение Числа событий к общему количеству Числа событий и Числа не-событий.
Доля не-событий – отношение Числа не-событий к общему количеству Числа событий и Числа не-событий.
Нижняя граница – для числовых признаков указывается нижняя граница интервала числом. Для категориальных признаков нижняя граница обозначается двумя категориями – верхней категорией предыдущего класса и нижней категорией текущего.
Верхняя граница – для числовых признаков указывается верхняя граница интервала числом. Для категориальных признаков верхняя граница обозначается двумя категориями – нижней категорией следующего класса и верхней категорией текущего.
Вес доказательства – коэффициент WoE для каждого класса.
Информационный индекс – указываются значения информационных индексов IV, вычисленные по каждому входному столбцу. Сумма частных информационных индексов по каждому классу дает общий информационный индекс признака, по которому определяется его значимость.
Доля класса – отношение количества наблюдений в классе к общему числу наблюдений.
Верхняя граница диапазонов открыта.
Предквантование – показывает применялось ли предквантование в процессе формирования конечных классов.
Значимости столбцов (таблица данных).
Имя столбца – идентификатор столбца, под которым он будет обрабатываться в наборе данных. Число столбцов равно числу входных полей узла Конечные классы.
Метка столбца – мнемоническое обозначение входного столбца, под которым он будет виден пользователю в базе или хранилище данных. По умолчанию устанавливается название, под которым данный столбец виден в исходном наборе данных.
Число событий – количество событий, попавших в данный класс.
Число не-событий – количество не-событий, попавших в данный класс.
Доля событий – отношение Числа событий к общему количеству Числа событий и Числа не-событий.
Доля не-событий – отношение Числа не-событий к общему количеству Числа событий и Числа не-событий.
Всего – общее число наблюдений в классе.
Информационный индекс – указываются значения информационных индексов IV, вычисленные по каждому входному столбцу.
Значимость столбца – уровень значимости входного столбца, определенный на основе Информационного индекса. Может принимать значения: отсутствует, очень низкая, низкая, средняя, высокая и очень высокая.
Мастер настройки
Мастер настройки состоит из следующих шагов:
Настройка внешнего разбиения — появляется, если задан порт Внешние диапазоны квантования. Позволяет настроить параметры заранее настроенного внешнего разбиения.
Настройка назначений столбцов — позволяет задать назначение столбцам, настройки входного и выходного полей, внешнего разбиения, а также настройки алгоритма для формирования конечных классов входных полей.
Настройка конечных классов — позволяет просматривать начальные классы и результаты формирования конечных классов. Предназначена для внесения ручной корректировки в границы (или множества) сформированных конечных классов с целью достижения лучших результатов.
Статьи в разделе: