Качество данных

Визуализатор позволяет производить комплексную оценку качества данных для каждого поля.

Интерфейс

Операции

  • Сводка Сводка — происходит выбор полей для анализа данных, отображаются общие показатели качества данных и обнаруженные проблемы в полях данных.
  • Дискретные Дискретные — обзор качества данных для дискретных полей.
  • Непрерывные Непрерывные — обзор качества данных для непрерывных полей.
  • Показатели Показатели — выбор и настройка показателей:
    • Выбор показателей Выбор показателей — выбираются показатели, которые требуются пользователю для оценки качества данных.
    • Настройка показателей Настройки показателей — выбор метода идентификации, настройка параметров метода идентификации, настройка максимального количества пропусков.
  • Абсолютные или относительные значения Абсолютные или относительные значения — переключает режим отображения количественных значений с абсолютного на процентный.
  • Экспорт Экспорт — позволяет экспортировать файл с отчетом. Экспортируется только текущая таблица ( Сводка, Дискретные, Непрерывные). В данном пункте меню будет отображаться название того формата, который выбран для экспорта:
    • Экспорт в XLS(html);
    • Экспорт в HTML.
  • Детализация Детализация — показывыет входной набор данных, отфильтрованный по заданному показателю для выбранного поля. Например, при выборе ячейки Пропуски будут показаны все записи входного набора, которые в выбранном поле имеют пропуски. Детализация доступна только для таблиц Дискретные и Непрерывные.
  • Гистограмма Гистограмма — отображает панель с гистограммой по выбранному полю. Гистограмма доступна только для таблиц Дискретные и Непрерывные.

Характеристики набора данных

  • Метод определения нетипичных значений — показывает метод идентификации. По умолчанию устанавляивается метод Стандартное отклонение
  • Столбцов — общее количество столбцов в исследуемом наборе.
  • Строк — общее количество записей в исследуемом наборе.
  • Заполненных полей — количество полей, которые не содержат пропущенные значения, в процентном соотношении.
  • Полных записей — количество записей, которые не содержат пропущенные значения, в процентном соотношении.
  • Пригодных столбцов — количество пригодных столбцов. Столбец считается непригодным, если:
    • процент Пропусков выше показателя Максимальный процент пропусков (данный показатель задаётся в Настройках показателей);
    • Индекс качества у дискретного поля равен 0 (поле содержит константу).
  • Индекс EPV — отношение количества записей к количеству столбцов.

Настройка таблиц

При открытии визуализатора Качество данных отображается таблица Сводка со списком полей. С помощью флагов можно выбирать поля, которые понадобятся пользователю для обработки. Таблицы Дискретные и Непрерывные в этот момент не доступны.

Выбор полей для обработки
Рисунок 1. Выбор полей для обработки

Доступные показатели:

Показатель Вид данных Значение
Индекс качества Отражает разнообразие значений в поле
Гистограмма Предпросмотр гистораммы
Экстремальные Количество записей, в которых значение является экстремальным
Пустые Количество записей с пустыми значениями
Пробелы в конце Количество записей со значениями, которые оканчиваются пробельным символом
Диапазон значений Диапазон значений в формате: первое ... последнее значение в отсортированном списке значений
Нулевые Количество записей, в которых значения равны нулю
Диаграмма размаха Считает показатели: Наименьший выброс, Нижний квартиль, Медиана, Верхний квартиль, Наибольший выброс, Наблюдаемый максимум
Минимум Минимальное значение
Среднее Среднее значение
Мода Наиболее часто встречающееся значение1
Пропуски Количество записей, в которых отсутствует значение для данного поля
Значения Отображает диаграмму, в которой показано разнообразие значений по строкам
Выбросы Количество записей, в которых значение является выбросом
Пробельные Количество записей со значениями, состоящими только из пробельных символов
Длины строк Диапазон длин строк в формате: минимальная длина - максимальная длина
Отрицательные Количество записей с отрицательными значениями
Бесконечности Количество записей, в которых значения равны бесконечности
Уникальные Количество уникальных значений
Максимум Максимальное значение
Медиана Медиана для данного поля
Монотонность Показывает однообразие значений поля (Убывающая, Возрастающая, Не монотонная)
1. Если в поле значений моды несколько, то показывается первое из этих значений, и отображается иконка мультимодальности.

Настройки показателей

В Настройках показателей выбирается Метод идентификации и его параметры.

Настройки показателей
Рисунок 2. Настройки показателей

После выбора полей и показателей для анализа качества данных нужно активировать кнопку Рассчитать статистики.

Теперь становятся доступными таблицы Дискретные и Непрерывные.

При нажатии на кнопку Кнопка можно сортировать поля по выбранному показателю, а также убрать/добавить столбцы с показателями.

Сортировка и удаление/добавление столбцов
Рисунок 3. Сортировка и удаление/добавление столбцов

При выборе ячейки и нажатии кнопки Детализация Детализация внизу открывается окно со всеми записями из этой ячейки.

Детализация ячейки
Рисунок 4. Детализация ячейки

При выборе ячейки и нажатии на кнопку Гистограмма Гистограмма в правой части интерфейса открывается окно с более детальной гистограммой. Для дискретных полей можно выбирать значения для отображения:

Возможные значения
Рисунок 5. Возможные значения

Проблемы

В колонке Проблемы отображается общее значение проблемных строк по данному полю.

Виды проблем

  • Пропуски — число строк, содержащих пропущенные значения.
  • Пустые — число строк, содержащих пустые значения.
  • Нули — число строк, содержащих нулевые значения.
  • Пробелы — число строк, содержащих только пробельные символы (пробел, неразрывный пробел, табуляция и т.д.)
  • Бесконечности — число строк, содержащих значение Бесконечность.
  • Константа — указывает, что поле содержит только одно уникальное значение, при этом в поле могут быть пропуски.
  • Уникальное — указывает, что каждое значение в этом поле является уникальным.
  • Ошибка конвертации — появляется, если поле содержит значения, которые не могут быть приведены к типу данных поля.
  • Не вычислено — отмечает поля, которые не содержат рассчитанных показателей.
  • Нет данных — проблема проявляется при анализе пустого набора данных.

Рядом со значением Вида проблем указывается количество строк с такой проблемой, в скобках указывается процентное соотношение проблемных строк к общему количеству строк.

Виды проблем
Рисунок 6. Виды проблем