类别型特征
编码 | 用途 |
---|---|
序号编码 | 通常用于处理类别间具有大小关系的数据 |
独热编码 | 通常用于处理类别间不具有大小关系的特征 |
二进制编码 | 先用序号编码给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果 |
Helmert Contrast | |
Sum Contrast | |
Polynomial Cotrast | |
Backward Difference Contrast |
栗子
- 性别
性别 | 类别ID | 二进制表示 | 狂热编码 |
---|---|---|---|
男 | 1 | 0 1 | 1 0 |
女 | 2 | 1 0 | 0 1 |
- 血型
血型 | 类别ID | 二进制表示 | 狂热编码 |
---|---|---|---|
A | 1 | 0 0 1 | 1 0 0 0 |
B | 2 | 0 1 0 | 0 1 0 0 |
AB | 3 | 0 1 1 | 0 0 1 0 |
O | 4 | 1 0 0 | 0 0 0 1 |