Нормализация дискретных данных
- Индикатор — длина закодированной строки равна n-1, где n — количество уникальных значений. Каждому уникальному значению поля, кроме опорной категории, выделяется своя колонка, в которую записывается значение 1, а все остальные значения строки равны 0; опорная категория кодируется строкой из нулей.
- Индикатор (без опорной категории) — длина закодированной строки равна n. Опорное значение не используется.
- Отклонение — то же, что и "Индикатор", но опорная категория кодируется строкой из -1.
- Простая — то же, что и "Индикатор", но вместо 0 используется значение -1/n, а вместо 1 используется значение 1-1/n.
- Разность — уникальные значения упорядочиваются, после чего каждое уникальное значение сравнивается со следующим по таблице вида:
| Уникальные значения | Контраст 1 | Контраст 2 | Контраст 3 |
|---|---|---|---|
| U1 vs. U2 | U2 vs. U3 | U3 vs. U4 | |
| U1 | (n-1)/n | (n-2)/n | (n-3)/n |
| U2 | -1/n | (n-2)/n | (n-3)n |
| U3 | -1/n | (n-2)/n | (n-3)/n |
| U4 | -1/n | -2/n | -3/n |
- Обратная разность — уникальные значения упорядочиваются, после чего каждое уникальное значение сравнивается с предыдущим по таблице вида:
| Уникальные значения | Контраст 1 | Контраст 2 | Контраст 3 |
|---|---|---|---|
| U1 vs. U2 | U2 vs. U3 | U3 vs. U4 | |
| U1 | -(n-1)/n | -(n-2)/n | -(n-3)/n |
| U2 | 1/n | -(n-2)/n | -(n-3)n |
| U3 | 1/n | 2/n | -(n-3)/n |
| U4 | 1/n | 2/n | 3/n |
- Гельмерт — уникальные значения упорядочиваются, после чего каждое уникальное значение сравнивается со средним из последующих значений по таблице вида:
| Уникальные значения | Контраст 1 | Контраст 2 | Контраст 3 |
|---|---|---|---|
| U1 vs. U2, U3 и U4 | U2 vs. U3 и U4 | U3 vs. U4 | |
| U1 | (n-1)/n | 0 | 0 |
| U2 | -1/n | (n-2)/n | 0 |
| U3 | -1/n | -1/(n-1) | (n-3)/n |
| U4 | -1/n | -1/(n-1) | -1/(n-2) |
- Обратный Гельмерт — уникальные значения упорядочиваются, после чего каждое уникальное значение сравнивается со средним из предыдущих значений по таблице вида:
| Уникальные значения | Контраст 1 | Контраст 2 | Контраст 3 |
|---|---|---|---|
| U2 vs. U1 | U3 vs. U1 и U2 | U4 vs. U1, U2 и U3 | |
| U1 | -1/(n-2) | -1/(n-1) | -1/n |
| U2 | (n-2)/n | -1/(n-1) | -1/n |
| U3 | 0 | (n-2)/n) | -1/n |
| U4 | 0 | 0 | (n-1)/n |
- Индекс уникального значения — каждое уникальное значение заменяется на индекс уникального значения.
Опорное значение
В некоторых нормализаторах дискретных данных используется опорное значение. Выбор опорного значения происходит из таблицы уникальных значений. Существует несколько вариантов задать опорное значение:
- Первое в списке;
- Последнее в списке;
- Более редкое;
- Более частое;
- Задано явно.