Заполнение пропусков
Описание
Компонент предназначен для автоматического заполнения пропущенных значений в наборах данных. Для каждого столбца исходного набора данных пользователь может выбрать наиболее подходящий метод заполнения пропусков. Пропусками считаются Null-значения.
Примечание: узел не обрабатывает поля с переменным типом данных (см. типы данных).
Порты
Вход
- Входной источник данных (таблица данных).
Выход
- Выходной набор данных (таблица данных).
Мастер настройки
Настройка соответствия между столбцами проводится в интерфейсах таблица или связи.
Настройка заполнения пропусков
- Исходные данные упорядочены — установку данного флага следует производить в том случае, когда известно, что данные являются упорядоченными. Например, временной или иной ряд, значения которого упорядочены по возрастанию или убыванию (например, по дате или времени). Для упорядоченных и неупорядоченных данных могут применяться различные методы заполнения пропусков.
- Допустимый процент пропусков — принимает значение в процентах и определяет порог, после которого заполнение пропусков не происходит. Например, если этому параметру задано значение 50, то поля, содержащие более 50% пропусков, заполняться не будут.
Random seed — начальное число (целое, положительное), которое используется для инициализации генератора псевдослучайных чисел. Последовательность чисел генератора полностью определяется начальным числом. Если генератор повторно инициализируется с тем же начальным числом, он выдаст ту же последовательность чисел.
Параметр влияет на порядок замены случайными значениями. Можно повторить результат выполнения узла, если подать те же данные и выставить тот же random seed.
Для параметра доступны следующие команды:
- Всегда случайно — начальное число всегда будет случайным.
- Генерировать — сгенерируется новое начальное число.
- Копировать — в буфер обмена будет скопировано указанное значение.
Область настройки методов обработки пропусков — содержит список полей доступных для обработки, с указанием вида данных. Для каждого поля можно выставить флаг, задающий необходимость обработки, и затем выставить метод заполнения пропусков.
Доступны следующие методы обработки:
- Заменять средним — выявленные пропуски заменяются средним значением столбца.
- Заменять медианой — выявленные пропуски заменяются медианой, вычисленной по столбцу.
- Заменять наиболее вероятным — выявленные пропуски заменяются наиболее вероятным значением по столбцу, замена производится на среднее значение из наиболее вероятного интервала, число интервалов варьируется в зависимости от объема выборки — чем она больше, тем больше интервалов.
- Заменять на 0 — выявленные пропуски заменяются значением 0.
- Заменять случайными значениями — выявленные пропуски заменяются случайными значениями, которые формируются из диапазона от наименьшего до наибольшего значения столбца.
- Линейная интерполяция — выявленные пропуски заменяются на вычисленные промежуточные значения линейной функции, полученной по известным значениям (условно проведя прямую между ними).
- Кубическая интерполяция — выявленные пропуски заменяются на промежуточные значения кубического сплайна (сплайны третьей степени с непрерывной первой производной), полученного по известным значениям.
- Сплайн-интерполяция — выявленные пропуски заменяются на промежуточные значения сплайн-функции , полученной по известным значениям.
- Оставить без изменения — выявленные пропуски заполняться не будут.
- Удалять записи — строки с выявленными пропусками исключаются из выходного набора данных.
- Заменять на "Не задано" — выявленные пропуски заменяются значением "Не задано" или на указанное пользователем значение, которое можно задать, нажав на кнопку .
Для каждого поля спектр доступных методов определяется тремя характеристиками данных одновременно (см. данные):
- упорядоченностью;
- типом;
- видом.
Таблица применимости по этим характеристикам:
Метод | Неупорядоченный набор | Упорядоченный набор | ||
---|---|---|---|---|
Дискретный | Непрерывный | Дискретный | Непрерывный | |
Заменять средним | ||||
Заменять медианой | ||||
Заменять наиболее вероятным | ||||
Заменять на 0 | ||||
Заменять случайными значениями | ||||
Линейная интерполяция | ||||
Кубическая интерполяция | ||||
Сплайн-интерполяция | ||||
Оставить без изменения | ||||
Удалять записи | ||||
Заменять значением «Не задано» |
Смотри также: