Линейная регрессия

Описание

Линейная регрессия представляет собой модель зависимости между входными и выходными переменными c линейной функцией связи.

Линейная регрессия является одним из наиболее часто используемых алгоритмов в машинном обучении. Этот алгоритм зачастую дает хороший результат даже на небольших наборах данных.

Широкое применение линейной регрессии обусловлено тем, что достаточно большое количество реальных процессов в науке, технике, экономике и бизнесе можно описать линейными моделями. Так, с помощью линейной регрессии можно оценивать объем ожидаемых продаж в зависимости от установленной цены.

Обработчик может использоваться для решения различных задач Data Mining, например, таких, как прогнозирование и численное предсказание.

Порты

Вход

  • Входной источник данных (таблица данных).

Выходы

  • Выход регрессии (таблица данных);
  • Коэффициенты регрессионной модели;
  • Сводка (переменные).

Важно: входные данные никогда не должны содержать пропусков, выходные данные не должны содержать пропусков во время обучения.

Мастер настройки узла

Мастер настройки включает в себя следующие группы параметров:

Разбиение на множества

Страница Разбиение на множества мастера настройки узла позволяет разделить множество на обучающее и тестовое.

  • Обучающее — структурированный набор данных, применяемый для обучения аналитических моделей. Каждая запись обучающего множества представляет собой обучающий пример, содержащий заданное входное воздействие и соответствующий ему правильный выходной (целевой) результат.
  • Тестовое — подмножество обучающей выборки, содержащее тестовые примеры, т.е. примеры, использующиеся не для обучения модели, а для проверки его результатов.

Доступные параметры:

  • Размер обучающего и тестового множества в процентах или строках.
  • Метод разбиения на обучающее и тестовое множество. Существует два метода разбиения:
    • Случайный — случайно разбивает множество записей на обучающее и тестовое множество.
    • Последовательный — группы строк множеств (обучающее, неиспользуемое, тестовое) выбираются последовательно, т.е. сначала выбираются те записи, которые входят в первое множество, затем — во второе и т.д. Порядок множеств можно менять.
  • Метод валидации.

Настройка линейной регрессии

Набор параметров для настройки линейной регрессии можно сгруппировать в следующие блоки:

Настройка метода

  • Автоматическая настройка:
    • Значение логического типа. По умолчанию включено.
    • Влияет на использование следующих блоков параметров: если включена, то можно настраивать блок Приоритет автоматической настройки, если выключена, то можно выбирать алгоритм отбора факторов и защиту от переобучения и настраивать приоритеты.
  • Приоритет автоматической настройки:
    • Влияет на выбор конкретного метода и его настроек по шкале: Точность — Скорость.
    • Может принимать следующие значения:
      • Максимальная точность.
      • Повышенная точность.
      • Средняя скорость.
      • Повышенная скорость.
      • Максимальная скорость.
  • Денормализировать коэффициенты модели — денормализация необходима для интерпретации результатов. Т.к. модель может работать только с нормализированными данными, то для ее работы необходимо сначала нормализовать данные, которые поступили в модель, а затем провести денормализацию для того, чтобы данные приняли вид, который был до нормализации. Является значением логического типа, по умолчанию включено.

Настройка параметров

Используется, если не выбран флаг Автоматическая настройка или же он задан с помощью переменной.

  • Отбор факторов и защита от переобучения — значение перечисления:
    • Принудительное включение (Enter) — включение в регрессионную модель всех заданных признаков независимо от того, оказывают ли они значимое влияние или нет.
    • Пошаговое включение (Forward) — метод, который базируется на принципе: начать с отсутствия признаков и постепенно найти самые лучшие, которые будут добавлены в подмножество.
    • Пошаговое исключение (Backward) — метод, который базируется на принципе: начать со всех доступных признаков и последовательными итерациями исключить самые худшие.
    • Пошаговое включение/исключение (Stepwise) — модификация метода Forward, однако на каждом шаге после включения новой переменной в модель осуществляется проверка на значимость остальных переменных, которые уже были введены в нее ранее.
    • Ridge — применяется для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом.
    • LASSO — также как и Ridge, применяется для борьбы с переизбыточностью данных.
    • Elastic-Net — модель регрессии с двумя регуляризаторами L1, L2. Частными случаями являются модели LASSO L1 = 0 и Ridge регрессии L2 = 0. Оба регуляризатора помогают улучшить обобщение и ошибки теста, поскольку не допускают переобучения модели из-за шума в данных:
      • L1 реализует это путём отбора наиболее важных факторов, которые сильнее всего влияют на результат.
      • L2 предотвращает переобучения модели путём запрета на непропорционально большие весовые коэффициенты.
  • Приоритет точность/скорость.
    • Может принимать следующие значения:
      • Максимальная точность.
      • Повышенная точность.
      • Средняя скорость.
      • Повышенная скорость.
      • Максимальная скорость.
  • Приоритет точные/недостоверные данные.
    • Может принимать следующие значения:
      • Точные данные.
      • Повышенная точность.
      • Средняя точность.
      • Пониженная точность.
      • Недостоверные данные.
  • Приоритет меньше/больше факторов.
    • Может принимать следующие значения:
      • Минимум факторов.
      • Меньше факторов.
      • Среднее число факторов.
      • Больше факторов.
      • Максимум факторов.

Перечисленные опции доступны для различных методов:

Метод Приоритет точность/скорость Приоритет точные/недостоверные данные Приоритет меньше/больше факторов
Enter
Forward
Backward
Stepwise
Ridge
LASSO
Elastic-Net
  • Использовать детальные настройки — позволяет более детально настроить линейную регрессию (появляется дополнительная страница мастера — блок детальных настроек).

Детальные настройки

Детальные настройки включаются при установке соответствующего флажка в Настройках линейной регрессии и объединяются в следующие блоки параметров:

Настройки метода

Доступные параметры:

  • Точность решения — критерий остановки итераций. Настройка, которая позволяет определить точность нахождения минимума функции ошибки. Значение вещественного типа от 0 до 1. Представляет собой редактор с шагом изменения значения 0,000001.
  • Включить в модель константу — добавляет в модель зависимую переменную.
  • Устранение мультиколлинеарности — тесной корреляционной взаимосвязи между отбираемыми для анализа факторами, совместно воздействующими на общий результат.

Настройки расчета статистики

Доступные параметры:

  • Рассчитать доверительный интервал.
  • % доверительного интервала.
  • Режим расчета статистики:
    • Не рассчитывать.
    • Для всех моделей.
    • Для финальной модели.

Настройки регуляции

Доступные параметры:

  • Установка коэффициента L1-регуляции — настройка данного параметра возможна только для алгоритмов LASSO, Elastic-Net;
  • Установка коэффициента L2-регуляции — настройка данного параметра возможна только для алгоритмов Ridge, Elastic-Net.

Для каждого из параметров можно задать либо автоматическую установку значения, либо ввести необходимое значение вручную.

Настройки отбора факторов

Доступные параметры:

results matching ""

    No results matching ""