《特征工程三部曲》之二 数据选择

选择的原因:特征个数越多,分析特征,训练的时间越长

容易引起维度灾难,模型也会越复杂,其推广能力会下降。

选择的原则·: 是否发散,是否相关

如果特征不发散,例如方差接近于0,也就是说样本在这个特征上基本没有差异,那么我们可以判断这个特征对样本的区别并没有什么用。第二个是特征与目标的相关性。越高越要优先选择。

常用的四种方法:

1 方差选择法: 计算各个特征的方差,根据阈值,选择方差大于阈值的特征。

2 相关系数法:计算各个特征对目标值的相关系数,选择更加相关的特征

3 递归特性消除法: 使用一个基模型进行多轮训练,经过多轮训练,保留指定的特征数。

4 模型选择法: 是把建好的模型对象传入到选择器,然后它会根据这个已经建好的模型,自动选择最好的特征。

总结:第一个方法对应的是发散,后三个是回归。

猜你喜欢

转载自blog.csdn.net/qq_16236875/article/details/89178578
今日推荐