Дубликаты и противоречия
Описание
Компонент позволяет выявить в исходной выборке данных дублирующие и противоречивые записи.
Дубликаты — записи в таблице, все входные и выходные поля которых одинаковые. Дубликаты приводят к избыточности, увеличивают объем выборки, при этом не повышая информативность данных.
Противоречия — записи в таблице, у которых все входные поля одинаковые, но отличаются хотя бы по одному выходному полю. Противоречия приводят к искажению результата анализа и снижают качество моделей, поскольку нарушают общие закономерности в данных, обнаружение которых и является целью исследования.
Алгоритм ищет в наборе данных записи, для которых одинаковым входным полям соответствуют одинаковые (дубликаты) или разные (противоречия) выходные поля.
Исследуем следующий набор данных на дубликаты и противоречия, для этого зададим назначение "Входное" для полей "Поле 1" и "Поле 2", назначение "Выходное" для полей "Поле 3" и "Поле 4" в настройках входного порта.
Исходная таблица:
Поле 1 | Поле 2 | Поле 3 | Поле 4 |
---|---|---|---|
01.01.2019 | 2 | 1000 | 1500 |
21.05.2019 | 3 | 1000 | 1500 |
21.05.2019 | 3 | 700 | 1500 |
21.05.2019 | 3 | 700 | 1500 |
01.09.2019 | 4 | 1200 | 1700 |
01.09.2019 | 4 | 1200 | 1700 |
Выходная таблица:
Дубликат | Группа дубликата | Противоречие | Группа противоречия | Поле 1 | Поле 2 | Поле 3 | Поле 4 |
---|---|---|---|---|---|---|---|
false | false | 01.01.2019 | 2 | 1 000 | 1 500 | ||
false | true | 1 | 21.05.2019 | 3 | 1 000 | 1 500 | |
true | 1 | true | 1 | 21.05.2019 | 3 | 700 | 1 500 |
true | 1 | true | 1 | 21.05.2019 | 3 | 700 | 1 500 |
true | 2 | false | 01.09.2019 | 4 | 1 200 | 1 700 | |
true | 2 | false | 01.09.2019 | 4 | 1 200 | 1 700 |
В результате найдены две группы дубликатов и одна группа противоречий.
Порты
Вход
- Входной источник данных (таблица данных). В настройках этого порта следует выставить назначение "Входное" и "Выходное" полям, которые будут использоваться для исследования на дубликаты и противоречия.
Примечание: обязательно должна быть задана хотя бы одна входная колонка.
Выход
- Выходной набор данных. Таблица имеет следующую структуру:
- Обязательные поля:
- Дубликат — значение логического типа, определяющее является ли исходная строка дубликатом или нет;
- Группа дубликата — в одну группу дубликатов объединяются дубликаты, у которых входные и выходные колонки совпадают;
- Противоречие — значение логического типа, определяющее является ли исходная строка противоречием или нет;
- Группа противоречия — в одну группу противоречий объединяются все противоречия, у которых входные колонки совпадают.
- Обязательные поля:
Примечание: нумерация групп начинается с 1.