Логистическая регрессия

Описание

Логистическая регрессия — это разновидность множественной регрессии, общее назначение которой состоит в анализе связи между несколькими независимыми переменными и зависимой переменной.

С помощью логистической регрессии можно оценивать вероятность того, что событие наступит для конкретного испытуемого (больной/здоровый, возврат кредита/дефолт и т.д.).

Важно: входные данные никогда не должны содержать пропусков, выходные данные не должны содержать пропусков во время обучения.

Порты

Вход

  • — Входной источник данных (таблица данных) — обязательный порт;
  • Управляющие переменные (переменные) — необязательный порт, переменными можно задать значения параметров мастера настройки.

Выходы

  • — Выход регрессии. Таблица, состоящая из полей:
    • Событие|Прогноз.
    • Вероятность события|Прогноз.
    • Событие|Факт.
    • Поле выходных данных|Прогноз.
    • Все поля исходного набора данных.
  • Коэффициенты регрессионной модели (таблица данных).
  • Сводка (переменные).

Мастер настройки узла

Включает следующие группы параметров:

Разбиение на множества

Страница Разбиение на множества мастера настройки узла позволяет разделить множество на обучающее и тестовое:

  • Обучающее — cтруктурированный набор данных, применяемый для обучения аналитических моделей. Каждая запись обучающего множества представляет собой обучающий пример, содержащий заданное входное воздействие и соответствующий ему правильный выходной (целевой) результат.
  • Тестовое — подмножество обучающей выборки, содержащее тестовые примеры, т.е. примеры, использующиеся не для обучения модели, а для проверки его результатов.

Доступные параметры:

  • Размер обучающего и тестового множества в процентах или строках. Может быть задан с помощью переменных.
  • Метод разбиения на обучающее и тестовое множество. Существует два метода разбиения:
    • Случайный — случайно разбивает множество записей на обучающее и тестовое множество.
    • Последовательный — группы строк множеств (обучающее, неиспользуемое, тестовое) выбираются последовательно, т.е. сначала выбираются те записи, которые входят в первое множество, затем — во второе и т.д. Порядок множеств можно менять (кнопки Сдвинуть вверх, Сдвинуть вниз).
  • Метод валидации, который может принимать следующие значения:

Настройка логистической регрессии

Набор параметров для настройки логистической регрессии можно сгруппировать в следующие блоки:

Настройка метода

  • Автоматическая настройка:
    • Значение логического типа. По умолчанию включено.
    • Влияет на использование следующих блоков параметров: если включена, то можно настраивать блок Приоритет автоматической настройки, если выключена, то можно выбирать алгоритм отбора факторов и защиту от переобучения и настраивать приоритеты.
  • Приоритет автоматической настройки:
    • Влияет на выбор конкретного метода и его настроек по шкале Точность — Скорость.
    • Целочисленный тип в диапазоне от 0 до 4 включительно:
      • Максимальная точность.
      • Повышенная точность.
      • Средняя скорость.
      • Повышенная скорость.
      • Максимальная скорость.
  • Денормализировать коэффициенты модели — денормализация необходима для интерпретации результатов. Т.к. модель может работать только с нормализированными данными, то для ее работы необходимо сначала нормализовать данные, которые поступили в модель, а затем провести денормализацию для того, чтобы данные приняли вид, который был до нормализации. Является значением логического типа, по умолчанию включено.

Настройка событий

  • Тип события. Может принимать следующие значения:
    • Первое в списке.
    • Последнее в списке.
    • Более редкое.
    • Более частое.
    • Задано явно.
  • Индекс заданного события.
    • Доступно для типа события Задано явно.
    • Значение целого типа, выбираемое согласно списку уникальных значений.

Настройка параметров

Используется, если не выбран флаг Автоматическая настройка или же он задан с помощью переменной.

  • Отбор факторов и защита от переобучения — значение перечисления:
    • Принудительное включение (Enter) — включение в регрессионную модель всех заданных признаков независимо от того, оказывают ли они значимое влияние или нет.
    • Пошаговое включение (Forward) — метод, который базируется на принципе: начать с отсутствия признаков и постепенно найти самые "лучшие", которые будут добавлены в подмножество.
    • Пошаговое исключение (Backward) — метод основан на следующем: начать со всех доступных признаков и последовательными итерациями исключить самые "худшие".
    • Пошаговое включение/исключение (Stepwise) — модификация метода Forward, однако на каждом шаге после включения новой переменной в модель осуществляется проверка на значимость остальных переменных, которые уже были введены в нее ранее.
    • Ridge — один из методов понижения размерности. Применяется для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом (мультиколлинеарность), вследствие чего проявляется неустойчивость оценок коэффициентов линейной регрессии.
    • LASSO — также как и Ridge, применяется для борьбы с переизбыточностью данных.
    • Elastic-Net — модель регрессии с двумя регуляризаторами L1, L2. Частными случаями являются модели LASSO L1 = 0 и Ridge регрессии L2 = 0. Оба регуляризатора помогают улучшить обобщение и ошибки теста, поскольку не допускают переобучения модели из-за шума в данных:
      • L1 — реализует это путём отбора наиболее важных факторов, которые сильнее всего влияют на результат.
      • L2 — предотвращает переобучения модели путём запрета на непропорционально большие весовые коэффициенты.
  • Приоритет точность/скорость.
    • Целочисленный тип в диапазоне от 0 до 4 включительно:
      • Максимальная точность.
      • Повышенная точность.
      • Средняя скорость.
      • Повышенная скорость.
      • Максимальная скорость.
  • Приоритет точные/недостоверные данные.
    • Целочисленный тип в диапазоне от 0 до 4 включительно:
      • Точные данные.
      • Повышенная точность.
      • Средняя точность.
      • Пониженная точность.
      • Недостоверные данные.
  • Приоритет меньше/больше факторов.
    • Целочисленный тип в диапазоне от 0 до 4 включительно:
      • Минимум факторов.
      • Меньше факторов.
      • Среднее число факторов.
      • Больше факторов.
      • Максимум факторов.

Перечисленные опции доступны для различных методов:

Метод Приоритет точность/скорость Приоритет точные/недостоверные данные Приоритет меньше/больше факторов
Enter
Forward
Backward
Stepwise
Ridge
LASSO
Elastic-Net
  • Использовать детальные настройки — позволяет более развернуто настроить логистическую регрессию (появляется дополнительная страница мастера — блок детальных настроек). Является значением логического типа, по умолчанию выключено.

Примечание: все доступные параметры настройки логистической регрессии можно задавать с помощью переменных.

Детальные настройки

Используются, если включен блок настроек параметров и в нем установлен флаг Использовать детальные настройки, или же он задан с помощью переменной.

Детальные настройки объединяются в следующие блоки параметров:

Настройки метода

Доступные параметры:

  • Точность решения — критерий остановки итераций. Настройка, которая позволяет определить точность нахождения минимума функции ошибки. Значение вещественного типа от 0 до 1. Представляет собой редактор с шагом изменения значения 0,000001.
  • Порог отсечения — определяет расчетное значение уравнения регрессии. Значение вещественного типа от 0 до 1. Представляет собой редактор с шагом изменения значения 0,1.
  • Включить в модель константу — добавляет в модель зависимую переменную.

Настройки расчета статистики

Доступные параметры:

  • Рассчитать доверительный интервал.
  • % доверительного интервала.
  • Режим расчета статистики:
    • Не рассчитывать.
    • Для всех моделей.
    • Для финальной модели.

Настройки регуляризации

Доступные параметры:

  • Установка коэффициента L1-регуляции — настройка данного параметра возможна только для алгоритмов LASSO, Elastic-Net;
  • Установка коэффициента L2-регуляции — настройка данного параметра возможна только для алгоритмов Ridge, Elastic-Net.

Для каждого из параметров можно задать либо автоматическую установку значения, либо ввести необходимое значение вручную.

Настройки отбора факторов

Доступные параметры:

Примечание: все доступные параметры детальных настроек можно задавать с помощью переменных.


Статьи в разделе:

Результаты поиска по запросу «» ()

    Нет результатов поиска по запросу ""