Нормализация дискретных данных
- Индикатор — длина закодированной строки равна n-1, где n — количество уникальных значений. Каждому уникальному значению поля, кроме опорной категории, выделяется своя колонка, в которую записывается значение 1, а все остальные значения строки равны 0; опорная категория кодируется строкой из нулей.
- Индикатор (без опорной категории) — длина закодированной строки равна n. Опорное значение не используется.
- Отклонение — то же, что и "Индикатор", но опорная категория кодируется строкой из -1.
- Простая — то же, что и "Индикатор", но вместо 0 используется значение -1/n, а вместо 1 используется значение 1-1/n.
- Разность — уникальные значения упорядочиваются, после чего каждое уникальное значение сравнивается со следующим по таблице вида:
Уникальные значения |
Контраст 1 |
Контраст 2 |
Контраст 3 |
|
U1 vs. U2 |
U2 vs. U3 |
U3 vs. U4 |
U1 |
(n-1)/n |
(n-2)/n |
(n-3)/n |
U2 |
-1/n |
(n-2)/n |
(n-3)n |
U3 |
-1/n |
(n-2)/n |
(n-3)/n |
U4 |
-1/n |
-2/n |
-3/n |
- Обратная разность — уникальные значения упорядочиваются, после чего каждое уникальное значение сравнивается с предыдущим по таблице вида:
Уникальные значения |
Контраст 1 |
Контраст 2 |
Контраст 3 |
|
U1 vs. U2 |
U2 vs. U3 |
U3 vs. U4 |
U1 |
-(n-1)/n |
-(n-2)/n |
-(n-3)/n |
U2 |
1/n |
-(n-2)/n |
-(n-3)n |
U3 |
1/n |
2/n |
-(n-3)/n |
U4 |
1/n |
2/n |
3/n |
- Гельмерт — уникальные значения упорядочиваются, после чего каждое уникальное значение сравнивается со средним из последующих значений по таблице вида:
Уникальные значения |
Контраст 1 |
Контраст 2 |
Контраст 3 |
|
U1 vs. U2, U3 и U4 |
U2 vs. U3 и U4 |
U3 vs. U4 |
U1 |
(n-1)/n |
0 |
0 |
U2 |
-1/n |
(n-2)/n |
0 |
U3 |
-1/n |
-1/(n-1) |
(n-3)/n |
U4 |
-1/n |
-1/(n-1) |
-1/(n-2) |
- Обратный Гельмерт — уникальные значения упорядочиваются, после чего каждое уникальное значение сравнивается со средним из предыдущих значений по таблице вида:
Уникальные значения |
Контраст 1 |
Контраст 2 |
Контраст 3 |
|
U2 vs. U1 |
U3 vs. U1 и U2 |
U4 vs. U1, U2 и U3 |
U1 |
-1/(n-2) |
-1/(n-1) |
-1/n |
U2 |
(n-2)/n |
-1/(n-1) |
-1/n |
U3 |
0 |
(n-2)/n) |
-1/n |
U4 |
0 |
0 |
(n-1)/n |
- Индекс уникального значения — каждое уникальное значение заменяется на индекс уникального значения.
Опорное значение
В некоторых нормализаторах дискретных данных используется опорное значение. Выбор опорного значения происходит из таблицы уникальных значений. Существует несколько вариантов задать опорное значение:
- Первое в списке;
- Последнее в списке;
- Более редкое;
- Более частое;
- Задано явно.