Сэмплинг

Описание

Компонент реализует различные способы отбора записей в выборку из исходного набора данных. Такая выборка создается для сокращения анализируемого объема данных, например, во избежание избыточных вычислений, т. к. трудоемкость некоторых алгоритмов Data Mining экспоненциально возрастает с увеличением объема данных.

При формировании выборки пользователь может задать метод отбора: случайный, равномерный случайный, стратифицированный, последовательный, отбор со смещением.

Порты

Вход

  •  Входной источник данных (таблица данных).

Выход

  •  Выходной набор данных (таблица данных).

Мастер настройки

  • Состояние входа — при активном состоянии позволяет использовать входные данные. Например, в "Отбор со смещением" нужны данные из входного набора.
  • Общее число записей — число записей таблицы входного источника данных.
  • Область настройки количества строк выходной таблицы. Размер выходной таблицы задается вручную; кнопка-переключатель предоставляет выбор — непосредственно указать количество строк  или задать его в процентах  от размера исходной таблицы.
  • Метод сэмплинга

    • Случайный — записи случайным образом выбираются из исходного набора данных и помещаются в результирующую выборку.
    • Равномерный случайный — все записи исходного набора данных разделяются на группы и затем из каждой группы случайным образом выбираются и помещаются в результирующую выборку. Размерность группы задается в параметрах метода.
    • Стратифицированный — все записи исходного набора данных разделяются на однородные группы (страты), после чего из каждой группы случайным образом выбираются и помещаются в результирующую выборку. Поля, определяющие страты, задаются в параметрах метода с помощью флажков. При установке флажка Полнота списка уникальных значений в результирующую выборку должны попасть записи из всех групп. Если обеспечить полноту списка окажется невозможным — возникнет ошибка.
    • Последовательный — в параметрах метода определяется, откуда будет взята выборка — из начала исходной таблицы или из конца. Последовательность строк в выборке будет такой же, как и в исходной таблице.
    • Отбор со смещением — при настройке параметров метода следует выбрать поле и уникальное значение из этого поля, для которого устанавливается фактор. Фактор, имеющий значение N, увеличит количество строк с интересующим нас уникальным значением в N раз в выходном наборе данных. N может принимать любые положительные значения. Следует учитывать, что максимальное количество уникальных значений в поле не должно превышать десять тысяч.
  • Random seed — начальное число (целое, положительное), которое используется для инициализации генератора псевдослучайных чисел. Последовательность чисел генератора полностью определяется начальным числом. Если генератор повторно инициализируется с тем же начальным числом, он выдаст ту же последовательность чисел.

    Параметр влияет на методы сэмплинга Случайный и Равномерный случайный. Повторить результат сэмплинга можно, если подать те же данные и указать тот же random seed.

    Для параметра доступны следующие команды:

    • Всегда случайно — начальное число всегда будет случайным.
    • Генерировать — сгенерируется новое начальное число.
    • Копировать — в буфер обмена будет скопировано указанное значение.