类别型特征

编码 用途
序号编码 通常用于处理类别间具有大小关系的数据
独热编码 通常用于处理类别间不具有大小关系的特征
二进制编码 先用序号编码给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果
Helmert Contrast
Sum Contrast
Polynomial Cotrast
Backward Difference Contrast

栗子

  • 性别
性别 类别ID 二进制表示 狂热编码
1 0 1 1 0
2 1 0 0 1
  • 血型
血型 类别ID 二进制表示 狂热编码
A 1 0 0 1 1 0 0 0
B 2 0 1 0 0 1 0 0
AB 3 0 1 1 0 0 1 0
O 4 1 0 0 0 0 0 1
发布了188 篇原创文章 · 获赞 62 · 访问量 18万+

猜你喜欢

转载自blog.csdn.net/Code_7900x/article/details/88101637