Заполнение пропусков

Описание

Компонент предназначен для автоматического заполнения пропущенных значений в наборах данных. Для каждого столбца исходного набора данных пользователь может выбрать наиболее подходящий метод заполнения пропусков. Пропусками считаются Null-значения.

Примечание: узел не обрабатывает поля с переменным типом данных (см. типы данных).

Порты

Вход

  •  Входной источник данных (таблица данных).

Выход

  •  Выходной набор данных (таблица данных).

Мастер настройки

Настройка соответствия между столбцами проводится в интерфейсах таблица или связи.

Настройка заполнения пропусков

  • Исходные данные упорядочены — установку данного флага следует производить в том случае, когда известно, что данные являются упорядоченными. Например, временной или иной ряд, значения которого упорядочены по возрастанию или убыванию (например, по дате или времени). Для упорядоченных и неупорядоченных данных могут применяться различные методы заполнения пропусков.
  • Допустимый процент пропусков — принимает значение в процентах и определяет порог, после которого заполнение пропусков не происходит. Например, если этому параметру задано значение 50, то поля, содержащие более 50% пропусков, заполняться не будут.
  • Random seed — начальное число (целое, положительное), которое используется для инициализации генератора псевдослучайных чисел. Последовательность чисел генератора полностью определяется начальным числом. Если генератор повторно инициализируется с тем же начальным числом, он выдаст ту же последовательность чисел.

    Параметр влияет на порядок замены случайными значениями. Можно повторить результат выполнения узла, если подать те же данные и выставить тот же random seed.

    Для параметра доступны следующие команды:

    • Всегда случайно — начальное число всегда будет случайным.
    • Генерировать — сгенерируется новое начальное число.
    • Копировать — в буфер обмена будет скопировано указанное значение.
  • Область настройки методов обработки пропусков — содержит список полей доступных для обработки, с указанием вида данных. Для каждого поля можно выставить флаг, задающий необходимость обработки, и затем выставить метод заполнения пропусков.

Доступны следующие методы обработки:

  • Заменять средним — выявленные пропуски заменяются средним значением столбца.
  • Заменять медианой — выявленные пропуски заменяются медианой, вычисленной по столбцу.
  • Заменять наиболее вероятным — выявленные пропуски заменяются наиболее вероятным значением по столбцу, замена производится на среднее значение из наиболее вероятного интервала, число интервалов варьируется в зависимости от объема выборки — чем она больше, тем больше интервалов.
  • Заменять на 0 — выявленные пропуски заменяются значением 0.
  • Заменять случайными значениями — выявленные пропуски заменяются случайными значениями, которые формируются из диапазона от наименьшего до наибольшего значения столбца.
  • Линейная интерполяция — выявленные пропуски заменяются на вычисленные промежуточные значения линейной функции, полученной по известным значениям (условно проведя прямую между ними).
  • Кубическая интерполяция — выявленные пропуски заменяются на промежуточные значения кубического сплайна (сплайны третьей степени с непрерывной первой производной), полученного по известным значениям.
  • Сплайн-интерполяция — выявленные пропуски заменяются на промежуточные значения сплайн-функции , полученной по известным значениям.
  • Оставить без изменения — выявленные пропуски заполняться не будут.
  • Удалять записи — строки с выявленными пропусками исключаются из выходного набора данных.
  • Заменять на "Не задано" — выявленные пропуски заменяются значением "Не задано" или на указанное пользователем значение, которое можно задать, нажав на кнопку  .

Для каждого поля спектр доступных методов определяется тремя характеристиками данных одновременно (см. данные):

  • упорядоченностью;
  • типом;
  • видом.

Таблица применимости по этим характеристикам:

МетодНеупорядоченный наборУпорядоченный набор
Дискретный Непрерывный Дискретный Непрерывный
Заменять средним
Заменять медианой
Заменять наиболее вероятным
Заменять на 0
Заменять случайными значениями
Линейная интерполяция
Кубическая интерполяция
Сплайн-интерполяция
Оставить без изменения
Удалять записи
Заменять значением «Не задано»

Смотри также: