机器学习系列之特征工程

数据的特征选择

数据特征主要分为两部分，一部分是业务已经整理好的各种特征数据；另一部分是根据业务特征去构造的数据特征。

特征选择的方法

一、已有特征

1.过滤法选择特征：

方差越小，不同样本的特征值越相似，此特征作用越小；

各个特征与输出值间的相关系数，选择相关系数较大的部分特征；

假设检验，如卡方检验、F检验、t检验；

互信息，信息增益。

2.包装法选择特征

最常用的包装法是递归消除特征法(recursive feature elimination,以下简称RFE)。递归消除特征法使用一个机器学习模型来进行多轮训练，每轮训练后，消除若干权值系数的对应的特征，再基于新的特征集进行下一轮训练。在sklearn中，可以使用RFE函数来选择特征。

3.嵌入法选择特征

嵌入法也是用机器学习的方法来选择特征，但是它和RFE的区别是它不是通过不停的筛掉特征来进行训练，而是使用的都是特征全集。在sklearn中，使用SelectFromModel函数来选择特征。

最常用的是使用L1正则化和L2正则化来选择特征。在之前讲到的用scikit-learn和pandas学习Ridge回归第6节中，我们讲到正则化惩罚项越大，那么模型的系数就会越小。当正则化惩罚项大到一定的程度的时候，部分特征系数会变成0，当正则化惩罚项继续增大到一定程度时，所有的特征系数都会趋于0. 但是我们会发现一部分特征系数会更容易先变成0，这部分系数就是可以筛掉的。也就是说，我们选择特征系数较大的特征。常用的L1正则化和L2正则化来选择特征的基学习器是逻辑回归。

此外也可以使用决策树或者GBDT。那么是不是所有的机器学习方法都可以作为嵌入法的基学习器呢？也不是，一般来说，可以得到特征系数coef或者可以得到特征重要度(feature importances)的算法才可以做为嵌入法的基学习器。

二、高级特征

寻找高级特征最常用的方法有：

　　　　若干项特征加和：我们假设你希望根据每日销售额得到一周销售额的特征。你可以将最近的7天的销售额相加得到。
　　　　若干项特征之差：假设你已经拥有每周销售额以及每月销售额两项特征，可以求一周前一月内的销售额。
　　　　若干项特征乘积：假设你有商品价格和商品销量的特征，那么就可以得到销售额的特征。
　　　　若干项特征除商：假设你有每个用户的销售额和购买的商品件数，那么就是得到该用户平均每件商品的销售额。

参考自：

https://www.cnblogs.com/pinard/p/9032759.html

https://segmentfault.com/a/1190000003719712

机器学习系列之特征工程

猜你喜欢