机器学习特征选择方法

有一句话这么说，特征决定上限，模型逼近上限。特征选择对后面的模型训练很重要，选择合适重要的特征，对问题求解尤为重要，下面介绍一些常见的特征选择方法。

通常来说，从两个方面考虑来选择特征：

特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。
特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。

①相关系数法使用相关系数法，先要计算各个特征对目标值的相关系

常用的有皮尔逊相关系数，斯皮尔曼秩系数，可见本博客中的相关分析http://blog.csdn.net/u014755493/article/details/69744860

②构建单个特征的模型，通过模型的准确性为特征排序，借此来选择特征

③通过L1正则项来选择特征：L1正则方法具有稀疏解的特性，天然具备特征选择的特性

分别使用L1和L2拟合，如果两个特征在L2中系数相接近，在L1中一个系数为0一个不为0，那么其实这两个特征都应该保留，原因是L1对于强相关特征只会保留一个

④训练能够对特征打分的预选模型：RandomForest和LogisticRegression/GBDT等都能对模型的特征打分，通过打分获得相关性后再训练最终模型

⑤通过特征组合后再来选择特征：如对用户id和用户特征最组合来获得较大的特征集再来选择特征，这种做法在推荐系统和广告系统中比较常见

⑥深度学习

⑦传统用前进或者后退法的逐步回归来筛选特征或者对特征重要性排序，对于特征数量不多的情况还是适用的。

⑧方差选择法，计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征

⑨卡方检验，经典的卡方检验是检验定性自变量对定性因变量的相关性
详见本博客卡方检验及其应用http://blog.csdn.net/u014755493/article/details/69791657

⑩互信息法(信息增益)，互信息法经典的互信息也是评价定性自变量对定性因变量的相关性的

互信息指的是两个随机变量之间的关联程度，即给定一个随机变量后，另一个随机变量不确定性的削弱程度，因而互信息取值最小为0，意味着给定一个随机变量对确定一另一个随机变量没有关系，最大取值为随机变量的熵，意味着给定一个随机变量，能完全消除另一个随机变量的不确定性。
互信息是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量，具体的计算公式为：

    其中U、C代表两个事件，e的取值可以为0或者1，1代表出现这个事件，0代表不出现。

机器学习特征选择方法

猜你喜欢