Качество данных
Визуализатор позволяет производить комплексную оценку качества данных для каждого поля.
Интерфейс
Операции
- Сводка — происходит выбор полей для анализа данных, отображаются общие показатели качества данных и обнаруженные проблемы в полях данных.
- Дискретные — обзор качества данных для дискретных полей.
- Непрерывные — обзор качества данных для непрерывных полей.
- Показатели — выбор и настройка показателей:
- Выбор показателей — выбираются показатели, которые требуются пользователю для оценки качества данных.
- Настройки показателей — выбор метода идентификации, настройка параметров метода идентификации, настройка максимального количества пропусков.
- Абсолютные или относительные значения — переключает режим отображения количественных значений с абсолютного на процентный.
- Экспорт — позволяет экспортировать файл с отчетом. Экспортируется только текущая таблица ( Сводка, Дискретные, Непрерывные). В данном пункте меню будет отображаться название того формата, который выбран для экспорта:
- Экспорт в XLS(html);
- Экспорт в HTML.
- Детализация — показывает входной набор данных, отфильтрованный по заданному показателю для выбранного поля. Например, при выборе ячейки Пропуски будут показаны все записи входного набора, которые в выбранном поле имеют пропуски. Детализация доступна только для таблиц Дискретные и Непрерывные.
- Гистограмма — отображает панель с гистограммой по выбранному полю. Гистограмма доступна только для таблиц Дискретные и Непрерывные.
Характеристики набора данных
- Метод определения нетипичных значений — показывает метод идентификации. По умолчанию устанавливается метод Стандартное отклонение
- Столбцов — общее количество столбцов в исследуемом наборе.
- Строк — общее количество записей в исследуемом наборе.
- Заполненных полей — количество полей, которые не содержат пропущенные значения, в процентном соотношении.
- Полных записей — количество записей, которые не содержат пропущенные значения, в процентном соотношении.
- Пригодных столбцов — количество пригодных столбцов. Столбец считается непригодным, если:
- процент Пропусков выше показателя Максимальный процент пропусков (данный показатель задаётся в Настройках показателей);
- Индекс качества у дискретного поля равен 0 (поле содержит константу).
- Индекс EPV — отношение количества записей к количеству столбцов.
Настройка таблиц
При открытии визуализатора Качество данных отображается таблица Сводка со списком полей. С помощью флагов можно выбирать поля, которые понадобятся пользователю для обработки. Таблицы Дискретные и Непрерывные в этот момент не доступны.
Доступные показатели:
Показатель | Вид данных | Значение |
---|---|---|
Индекс качества | Отражает разнообразие значений в поле | |
Гистограмма | Предпросмотр гистограммы | |
Экстремальные | Количество записей, в которых значение является экстремальным | |
Пустые | Количество записей с пустыми значениями | |
Пробелы в конце | Количество записей со значениями, которые оканчиваются пробельным символом (показатель не включает в себя, записи, состоящие только из пробельных символов) | |
Диапазон значений | Диапазон значений в формате: первое ... последнее значение в отсортированном списке значений | |
Нулевые | Количество записей, в которых значения равны нулю | |
Диаграмма размаха | Считает показатели: Наименьший выброс, Нижний квартиль, Медиана, Верхний квартиль, Наибольший выброс, Наблюдаемый максимум | |
Минимум | Минимальное значение | |
Среднее | Среднее значение | |
Мода | Наиболее часто встречающееся значение1 | |
Пропуски | Количество записей, в которых отсутствует значение для данного поля | |
Значения | Отображает диаграмму, в которой показано разнообразие значений по строкам | |
Выбросы | Количество записей, в которых значение является выбросом | |
Пробельные | Количество записей со значениями, состоящими только из пробельных символов | |
Длины строк | Диапазон длин строк в формате: минимальная длина - максимальная длина | |
Отрицательные | Количество записей с отрицательными значениями | |
Бесконечности | Количество записей, в которых значения равны бесконечности | |
Уникальные | Количество уникальных значений | |
Максимум | Максимальное значение | |
Медиана | Медиана для данного поля | |
Монотонность | Показывает однообразие значений поля (Убывающая, Возрастающая, Не монотонная) |
1. Если в поле значений моды несколько, то показывается первое из этих значений, и отображается иконка мультимодальности. ↩
Настройки показателей
В Настройках показателей выбирается Метод идентификации и его параметры.
После выбора полей и показателей для анализа качества данных нужно активировать кнопку Рассчитать статистики.
Теперь становятся доступными таблицы Дискретные
и Непрерывные
.
При нажатии на кнопку можно сортировать поля по выбранному показателю, а также убрать/добавить столбцы с показателями.
При выборе ячейки и нажатии кнопки Детализация внизу открывается окно со всеми записями из этой ячейки.
При выборе ячейки и нажатии на кнопку Гистограмма в правой части интерфейса открывается окно с более детальной гистограммой. Для дискретных полей можно выбирать значения для отображения:
Проблемы
В колонке Проблемы отображается общее значение проблемных строк по данному полю.
Виды проблем
- Пропуски — количество записей, содержащих пропущенные значения.
- Пустые — количество записей, содержащих пустые значения.
- Нули — количество записей, содержащих нулевые значения.
- Пробелы — количество записей, содержащих только пробельные символы (пробел, неразрывный пробел, табуляция и т.д.)
- Бесконечности — количество записей, содержащих значение Бесконечность.
- Константа — указывает, что поле содержит только одно уникальное значение, при этом в поле могут быть пропуски.
- Уникальное — указывает, что каждое значение в этом поле является уникальным.
- Ошибка конвертации — появляется, если поле содержит значения, которые не могут быть приведены к типу данных поля.
- Не вычислено — отмечает поля, которые не содержат рассчитанных показателей.
- Нет данных — проблема проявляется при анализе пустого набора данных.
- Экстремальные — количество записей, в которых значение является экстремальным.
- Выбросы — количество записей, в которых значение является выбросом.
- Отрицательные — количество записей с отрицательными значениями.
- Пробелы в конце — количество записей со значениями, которые оканчиваются пробельным символом (показатель не включает в себя, записи, состоящие только из пробельных символов).
Рядом со значением Вида проблем указывается количество строк с такой проблемой, в скобках указывается процентное соотношение проблемных строк к общему количеству строк.