选择的原因:特征个数越多,分析特征,训练的时间越长
容易引起维度灾难,模型也会越复杂,其推广能力会下降。
选择的原则·: 是否发散,是否相关
如果特征不发散,例如方差接近于0,也就是说样本在这个特征上基本没有差异,那么我们可以判断这个特征对样本的区别并没有什么用。第二个是特征与目标的相关性。越高越要优先选择。
常用的四种方法:
1 方差选择法: 计算各个特征的方差,根据阈值,选择方差大于阈值的特征。
2 相关系数法:计算各个特征对目标值的相关系数,选择更加相关的特征
3 递归特性消除法: 使用一个基模型进行多轮训练,经过多轮训练,保留指定的特征数。
4 模型选择法: 是把建好的模型对象传入到选择器,然后它会根据这个已经建好的模型,自动选择最好的特征。
总结:第一个方法对应的是发散,后三个是回归。