Заполнение пропусков

Описание

Компонент предназначен для автоматического заполнения пропущенных значений в наборах данных. Для каждого столбца исходного набора данных пользователь может выбрать наиболее подходящий метод заполнения пропусков. Пропусками считаются Null-значения.

Примечание: узел не обрабатывает поля с переменным типом данных (см. типы данных).

Порты

Вход

Входной источник данных (таблица данных).

Выход

Выходной набор данных (таблица данных).

Мастер настройки

Настройка соответствия между столбцами проводится в интерфейсах таблица или связи.

Настройка заполнения пропусков

Исходные данные упорядочены — установку данного флага следует производить в том случае, когда известно, что данные являются упорядоченными. Например, временной или иной ряд, значения которого упорядочены по возрастанию или убыванию (например, по дате или времени). Для упорядоченных и неупорядоченных данных могут применяться различные методы заполнения пропусков.
Допустимый процент пропусков — принимает значение в процентах и определяет порог, после которого заполнение пропусков не происходит. Например, если этому параметру задано значение 50, то поля, содержащие более 50% пропусков, заполняться не будут.
Random seed — начальное число (целое, положительное), которое используется для инициализации генератора псевдослучайных чисел. Последовательность чисел генератора полностью определяется начальным числом. Если генератор повторно инициализируется с тем же начальным числом, он выдаст ту же последовательность чисел.

Параметр влияет на порядок замены случайными значениями. Можно повторить результат выполнения узла, если подать те же данные и выставить тот же random seed.

Для параметра доступны следующие команды:
- Всегда случайно — начальное число всегда будет случайным.
- Генерировать — сгенерируется новое начальное число.
- Копировать — в буфер обмена будет скопировано указанное значение.
Область настройки методов обработки пропусков — содержит список полей доступных для обработки, с указанием вида данных. Для каждого поля можно выставить флаг, задающий необходимость обработки, и затем выставить метод заполнения пропусков.

Доступны следующие методы обработки:

Заменять предыдущим значением — выявленные пропуски заменяются предыдущим известным (непустым) значением из того же столбца. Если в начале набора данных встречаются пропуски, они остаются незаполненными до первого непустого значения.
Заменять средним — выявленные пропуски заменяются средним значением столбца.
Заменять медианой — выявленные пропуски заменяются медианой, вычисленной по столбцу.
Заменять наиболее вероятным — выявленные пропуски заменяются наиболее вероятным значением по столбцу, замена производится на среднее значение из наиболее вероятного интервала, число интервалов варьируется в зависимости от объема выборки — чем она больше, тем больше интервалов. Метод обработки вычисляется по-разному в зависимости от вида данных:
- Для дискретных данных пропуски заполняются наиболее часто встречающимся значением. Если таких значений несколько, выбирается последнее среди значений с одинаковой максимальной частотой.
- Для непрерывных данных пропуски заполняются средним значением из наиболее частого интервала. Если таких интервалов несколько, выбирается первый интервал среди интервалов с одинаковой максимальной частотой.
Заменять на 0 — выявленные пропуски заменяются значением 0.
Заменять случайными значениями — выявленные пропуски заменяются случайными значениями, которые формируются из диапазона от наименьшего до наибольшего значения столбца.
Линейная интерполяция — выявленные пропуски заменяются на вычисленные промежуточные значения линейной функции, полученной по известным значениям (условно проведя прямую между ними).
Кубическая интерполяция — выявленные пропуски заменяются на промежуточные значения кубического сплайна (сплайны третьей степени с непрерывной первой производной), полученного по известным значениям.
Сплайн-интерполяция — выявленные пропуски заменяются на промежуточные значения сплайн-функции , полученной по известным значениям.
Оставить без изменения — выявленные пропуски заполняться не будут.
Удалять записи — строки с выявленными пропусками исключаются из выходного набора данных.
Заменять на "Не задано" — выявленные пропуски заменяются значением "Не задано" или на указанное пользователем значение, которое можно задать, нажав на кнопку .

Для каждого поля спектр доступных методов определяется тремя характеристиками данных одновременно (см. данные):

упорядоченностью;
типом;
видом.

Таблица применимости по этим характеристикам:

Метод	Неупорядоченный набор		Упорядоченный набор
Метод	Дискретный	Непрерывный	Дискретный	Непрерывный
Заменять предыдущим значением
Заменять средним
Заменять медианой
Заменять наиболее вероятным
Заменять на 0
Заменять случайными значениями
Линейная интерполяция
Кубическая интерполяция
Сплайн-интерполяция
Оставить без изменения
Удалять записи
Заменять значением «Не задано»

Смотри также:

Редактирование выбросов