Кластеризация транзакций

Описание

В основе кластеризации транзакций лежит алгоритм CLOPE, применение которого позволяет обрабатывать огромные массивы транзакционных данных: чеки в супермаркетах, логи посещений веб-ресурсов и другие. Задача состоит в получении такого разбиения всего множества транзакций, чтобы похожие транзакции оказались в одном кластере, а отличающиеся друг от друга — в разных кластерах.

Алгоритм автоматически подбирает количество кластеров. Аналитик может повлиять на результат с помощью коэффициента отталкивания и назначения максимального числа кластеров или итераций.

Для получения результирующих наборов требуется предварительное обучение узла.

Порты

Вход

— Входной источник данных (таблица данных). Необязательный.
— Дополнительный вход (таблица данных). Необязательный.

Входные данные - это транзакции, сформированные в 2 поля, одно из которых является транзакцией, а второе - элементом. Например, первое поле - код покупателя, второе - список его покупок.

Требования к принимаемым данным

Поля с непрерывным видом данных непригодны для обработки.

Преобразовать к требуемому виду (с полями Транзакция и Элемент) обычный набор данных, состоящий из столбцов с измеренными свойствами объектов всегда можно при помощи узлов Loginom, таких как Свёртка столбцов и Калькулятор

Выход

— Разбиение на кластеры.

Таблица данных, состоящая из:

Поля, назначение которого — «Транзакция».
Номеров кластеров — каждой транзакции присвоен номер того кластера, в который она входит.
— Параметры кластеров.

Таблица данных, состоящая из:

Номеров кластеров — перечислены номера сформированных кластеров.
N — количество транзакций, вошедших в кластер.
W — ширина кластера, т.е. число уникальных объектов в нем.
S — мощность (площадь) кластера.

Мастер настройки

На данном этапе необходимо задать:

Поля для кластеризации.
- Для полей, участвующих в обработке, выставить назначения «Транзакция» и «Элемент».
- Для прочих полей оставить «Не задано».
Коэффициент отталкивания — с его помощью регулируется уровень сходства транзакций внутри кластера, и, как следствие, финальное количество кластеров. Чем больше коэффициент, тем ниже уровень сходства и тем больше кластеров будет сгенерировано. По умолчанию значение коэффициента отталкивания установлено 2,6. Диапазон изменения значений от 1 до 4.
Ограничить число кластеров — предполагает возможность вручную задать наибольшее количество кластеров, которые может выдать в результате алгоритм. Этой настройкой можно воспользоваться в случае, если задача требует определенного числа кластеров, например, не больше 15.
Ограничить число итераций — искусственное прекращение работы алгоритма в случае, если количество итераций алгоритма превышает заданное максимальное число итераций. В алгоритме первый проход по таблице транзакций служит для построения начального разбиения, определяемого функцией стоимости, после чего для повышения качества кластеризации и оптимизации функции дополнительно сканируются таблицы несколько раз, пока изменения в разбиении не прекратятся. Ограничивать максимальное количество итераций следует в случае большого количества данных для предварительной оценки качества кластеризации.