Кластеризация

Описание

Кластеризация (сегментация) — это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Объекты внутри кластера должны быть похожими друг на друга и отличаться от других, которые вошли в другие кластеры.

Обработчик производит кластеризацию объектов на основе алгоритмов k-means и g-means. Основное отличие одного алгоритма от другого, известно ли заранее количество кластеров. Если количество кластеров известно, то применяется алгоритм k-means, в противном случае g-means, который определит это количество автоматически в рамках заданного интервала.

Иллюстрация работы алгоритма k-means
Рисунок 1. Иллюстрация работы алгоритма k-means

На рисунке цветом выделены отдельные кластеры и объекты, им принадлежащие.

Для получения результирующих наборов требуется предварительное обучение обработчика.

Порты

Вход

  • Входной источник данных (таблица данных).

Требования к принимаемым данным

Поле будет запрещено к использованию, если:

  • оно является дискретным и содержит всего одно уникальное значение;
  • оно непрерывное и с нулевой дисперсией;
  • оно содержит пропущенные значения.

Выход

  • Разбиение на кластеры.

Таблица, состоящая из полей:

  • Номер кластера — каждому объекту присвоен номер того кластера, в который он входит.
  • Расстояние до центра кластера — положение объекта относительно центра кластера.
  • Поля исходного набора данных (значения не изменяются).

  • Центры кластеров.

Центр кластера — среднее значение переменных объектов, входящих в кластер. Результат — таблица, количество записей которой соответствует числу кластеров, т.е. данные сгруппированы по кластерам. Состоит из полей:

  • Номер кластера — перечислены номера сформированных кластеров.
  • Поля исходного набора данных, в ячейках которых рассчитано среднее значение параметров.

Мастер настройки

  • Выбор полей для кластеризации.
    • Для полей, участвующих в кластеризации, выставить назначение "Используемое" ("Активное").
    • Для прочих полей оставить "Не задано".
  • При заданном числе кластеров.
    • Снять галочку "Автоопределение числа кластеров";
    • Ввести нужное количество кластеров. Должно быть больше 2, по умолчанию - значение "3".
  • При автоматическом определении числа кластеров.
    • Задать минимальное число кластеров. По умолчанию — 1.
    • Задать максимальное число кластеров. По умолчанию — 10.
    • Указать значение порога разделения кластеров (в интервале от 0,1 до 5). Чем больше порог разделения, тем больше кластеров будет сгенерировано при кластеризации.

results matching ""

    No results matching ""