Логистическая регрессия

Описание

Логистическая регрессия — это разновидность множественной регрессии, общее назначение которой состоит в анализе связи между несколькими независимыми переменными и зависимой переменной.

С помощью логистической регрессии можно оценивать вероятность того, что событие наступит для конкретного испытуемого (больной/здоровый, возврат кредита/дефолт и т.д.).

Важно: входные данные никогда не должны содержать пропусков, выходные данные не должны содержать пропусков во время обучения.

Порты

Вход

  • Входной источник данных (таблица данных).

Выходы

Мастер настройки узла

Включает следующие группы параметров:

Разбиение на множества

Страница "Разбиение на множества" мастера настройки узла позволяет разделить множество на обучающее и тестовое.

  • Обучающее — структурированный набор данных, применяемый для обучения аналитических моделей. Каждая запись обучающего множества представляет собой обучающий пример, содержащий заданное входное воздействие и соответствующий ему правильный выходной (целевой) результат;
  • Тестовое — подмножество обучающей выборки, содержащее тестовые примеры, т.е. примеры, использующиеся не для обучения модели, а для проверки его результатов.

Доступные параметры:

  • Размер обучающего и тестового множества в процентах или строках;
  • Метод разбиения на обучающее и тестовое множество. Существует два метода разбиения:
    • Случайный — случайно разбивает множество записей на обучающее и тестовое множество;
    • Последовательный — группы строк множеств (обучающее, неиспользуемое, тестовое) выбираются последовательно, т.е., сначала выбираются те записи, которые входят в первое множество, затем во второе и т.д. Порядок множеств можно менять (см. рисунок 1).
  • Метод валидации.
Разбиение на множества.
Рисунок 1. Разбиение на множества.

Настройка логистической регрессии

Данная страница мастера настройки узла содержит следующие параметры:

  • Тип события — значение зависимой переменной ;
  • Автоматическая настройка:
    • Если включена, то можно настраивать приоритеты:
      • Приоритет точность/скорость;
      • Приоритет точные/недостоверные данные;
      • Приоритет меньше/больше факторов.
    • Если выключена, то можно выбирать алгоритм отбора факторов и защиту от переобучения:
      • Принудительное включение (Enter) — включение в регрессионную модель всех заданных признаков независимо от того, оказывают ли они значимое влияние или нет;
      • Пошаговое включение (Forward) — метод, который базируется на принципе: начать с отсутствия признаков и постепенно найти самые лучшие, которые будут добавлены в подмножество;
      • Пошаговое исключение (Backward) — метод, который базируется на принципе: начать со всех доступных признаков и последовательными итерациями исключить самые худшие;
      • Пошаговое включение/исключение (Stepwise) — модификация метода Forward, однако на каждом шаге после включения новой переменной в модель осуществляется проверка на значимость остальных переменных, которые уже были введены в нее ранее;
      • Ridge — применяется для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом;
      • LASSO — также как и Ridge применяется для борьбы с переизбыточностью данных.
      • Elastic-Net — модель регрессии с двумя регуляризаторами L1, L2. Частными случаями являются модели LASSO L1 = 0 и Ridge регрессии L2 = 0. Оба регуляризатора помогают улучшить обобщение и ошибки теста, поскольку не допускают переобучения модели из-за шума в данных:
        • L1 реализует это путём отбора наиболее важных факторов, которые сильнее всего влияют на результат;
        • L2 предотвращает переобучения модели путём запрета на непропорционально большие весовые коэффициенты.
  • Денормализировать коэффициенты модели — денормализация необходима для интерпретации результатов, т.к. модель может работать только с нормализированными данными, то для ее работы необходимо сначала нормализовать данные, которые поступили в модель, а затем провести денормализацию для того, чтобы данные приняли вид, который был до нормализации.

  • Использовать детальные настройки — позволяет более детально настроить логистическую регрессию (появляется дополнительная страница мастера).

Детальные настройки

Настройки метода

Доступные параметры:

  • Точность решения — настройка, которая позволяет выбрать с какой точностью требуется решение;
  • Порог отсечения — определяет расчетное значение уравнения регрессии (изменяется от 0 до 1);
  • Включить в модель константу — добавляет в модель зависимую переменную;
  • Устранение мультиколлинеарности — тесной корреляционной взаимосвязи между отбираемыми для анализа факторами, совместно воздействующих на общий результат.

Настройки расчета статистики

Доступные параметры:

  • Рассчитать доверительный интервал;
  • Режим расчета статистики:
    • Не рассчитывать;
    • Для всех моделей;
    • Для финальной модели.

Настройки регуляции

Доступные параметры:

  • Установка коэффициента L1-регуляции;
  • Установка коэффициента L2-регуляции.

Для каждого из параметра можно задать либо автоматическую установку значения, либо ввести необходимое значение вручную.

Настройка данных параметров возможно только для алгоритмов "LASSO" и "Elastic-Net".

Настройки отбора факторов

Доступные параметры:


Статьи в разделе:

results matching ""

    No results matching ""