Нормализация дискретных данных

Индикатор — длина закодированной строки равна n-1, где n — количество уникальных значений. Каждому уникальному значению поля, кроме опорной категории, выделяется своя колонка, в которую записывается значение 1, а все остальные значения строки равны 0; опорная категория кодируется строкой из нулей.
Индикатор (без опорной категории) — длина закодированной строки равна n. Опорное значение не используется.
Отклонение — то же, что и "Индикатор", но опорная категория кодируется строкой из -1.
Простая — то же, что и "Индикатор", но вместо 0 используется значение -1/n, а вместо 1 используется значение 1-1/n.
Разность — уникальные значения упорядочиваются, после чего каждое уникальное значение сравнивается со следующим по таблице вида:

Уникальные значения	Контраст 1	Контраст 2	Контраст 3
	U1 vs. U2	U2 vs. U3	U3 vs. U4
U1	(n-1)/n	(n-2)/n	(n-3)/n
U2	-1/n	(n-2)/n	(n-3)n
U3	-1/n	(n-2)/n	(n-3)/n
U4	-1/n	-2/n	-3/n

Обратная разность — уникальные значения упорядочиваются, после чего каждое уникальное значение сравнивается с предыдущим по таблице вида:

Уникальные значения	Контраст 1	Контраст 2	Контраст 3
	U1 vs. U2	U2 vs. U3	U3 vs. U4
U1	-(n-1)/n	-(n-2)/n	-(n-3)/n
U2	1/n	-(n-2)/n	-(n-3)n
U3	1/n	2/n	-(n-3)/n
U4	1/n	2/n	3/n

Гельмерт — уникальные значения упорядочиваются, после чего каждое уникальное значение сравнивается со средним из последующих значений по таблице вида:

Уникальные значения	Контраст 1	Контраст 2	Контраст 3
	U1 vs. U2, U3 и U4	U2 vs. U3 и U4	U3 vs. U4
U1	(n-1)/n	0	0
U2	-1/n	(n-2)/n	0
U3	-1/n	-1/(n-1)	(n-3)/n
U4	-1/n	-1/(n-1)	-1/(n-2)

Обратный Гельмерт — уникальные значения упорядочиваются, после чего каждое уникальное значение сравнивается со средним из предыдущих значений по таблице вида:

Уникальные значения	Контраст 1	Контраст 2	Контраст 3
	U2 vs. U1	U3 vs. U1 и U2	U4 vs. U1, U2 и U3
U1	-1/(n-2)	-1/(n-1)	-1/n
U2	(n-2)/n	-1/(n-1)	-1/n
U3	0	(n-2)/n)	-1/n
U4	0	0	(n-1)/n

Индекс уникального значения — каждое уникальное значение заменяется на индекс уникального значения.

Опорное значение

В некоторых нормализаторах дискретных данных используется опорное значение. Выбор опорного значения происходит из таблицы уникальных значений. Существует несколько вариантов задать опорное значение:

Первое в списке;
Последнее в списке;
Более редкое;
Более частое;
Задано явно.