连续数值变量的离散化、哑变量

#还是Age字段,一般连续数据要做离散化
#某些分类数据,为了可以更好的使用,可以转换为哑变量使用
##连续数据离散化的好处:
#1)有些算法的输入要求必须是离散化的数据,如贝叶斯和树模型
#2)离散化可以对连续数据的异常点进行处理,可以提高鲁棒性
#3)离散化后计算速度更快
#4)构建哑变量可以增加模型的灵活性,解耦很多数据特征
##另外构建哑变量,对一个类别类型,如果完全没有比较关系,则可以构建成哑变量
#如男女可以分为两个哑变量、也可以部分,因为哑变量一般是去掉一个的,
#年龄分段就不好分成哑变量,因为大小可能内在有一定的关系
#还有等级
#分类的如学生、老师、工人等就完全可以构建哑变量
 

————后续补充完成

猜你喜欢

转载自blog.csdn.net/CangHaier/article/details/81256143