python每日一记6

1、转换数据之哑变量处理类别型变量
pandas.get_dummies()可以将类别型变量转换为数值型变量,其中的各个参数请自行去查看。
2、连续性数值转化为离散化数值,类似于变量重编码,如年龄段分类等
常用的方法有等宽法、等频法、聚类分析法
等宽法:pd.cut(),其实此方法可以将数值等宽分段,也可以设置节点进行自定义分段,如下的年龄段编码问题,以前可能较多时使用循环进行编码,现在只需要设置节点,在把编码的列写入源数据即可完成。
需要注意的是默认前开后闭,因此加上include_lowest= True,才不会丢失最小数的编码。
在这里插入图片描述
在这里插入图片描述
那,我们怎么对类别型变量进行编码呢?比如各个区域的分层编码?有知道的小伙伴可以留言哦!

猜你喜欢

转载自blog.csdn.net/weixin_44663675/article/details/87891818
今日推荐