【学习笔记】特征工程(1)



 构建特征(转换) 

原始数据的变量本身就是一个特征,有时会对其中部分变量进行一些转换,这样做可能会提高模型的稳定性和准确率。

常见的特征构建(转换)方式有:

  1. 标准化
    x'=(x-μ)/σ,即原始数值减去均值除以标差,对原始变量进行了对中和归一,去掉幅度的影响

  2. 归一化
    x'=(x-MinValue)/(MaxValue-MinValue),实现将原始变量值域划归到[0,1]区间,去掉量纲的影响

  3. 信号增强
    常用的方法是:傅里叶变换、小波变换,主要用于信号处理、图像处理

  4. 降维技术
    PCA,MDS(多维尺度变换) 【降维技术时常应用于数据可视化

    上图是一个高维数据集进行聚类后分成6类,用mds方法降维到二维平面上,用不同颜色表示不同的类别。这是一个mds用户数据可视化的例子,用肉眼检验聚类效果

  5. 非线性扩展
    比如原始特征有x1,x2,构造一个新的特征为x1*x2 ,在线性回归中出现称之为交叉项。

  6. 离散化
    又称为分箱

    1. 等深分箱:记录数在各个分箱内相同

    2. 等宽分箱:在属性值的区间上平均分布

      扫描二维码关注公众号,回复: 6076897 查看本文章
    3. 自定义:根据业务经验分箱

    4. 熵:按照最小熵分箱,决策树里面连续型变量在节点的分裂点就是依据此原理

以上这些方法,有些不会改变原始数据空间的维度(标准化,归一化),有些会升高原始数据空间的维度(非线性膨胀、离散化),有些降低原始数据空间维度。特征转换后最好和原始的也一起放入宽表,比较后再选择筛选。线性相关并不意味着特征冗余。因为在较高维的空间可以让点分离,可能就会出现一清晰的分割面。


 选择特征 

常见的特征选择方法主要有3种:

1.过滤式选择
早期的特征选择算法大多属于过滤式特征选择,过滤式特征选择的评价标准从数据集本身的内在性质获得,与特定的学习算法无关,因此有较好的通用性。通常选择和类别相关度大的特征或者特征子集。基本观点是:相关度较大的特征或者特征子集会在分类器上可以获得较高的准确率。

2.包裹式选择
用学习算法的性能来评价特征子集的优劣。Wrapper方法需要训练一个分类器,根据分类器的性能对该特征子集进行评价。Wrapper方法中用以评价特征选择的学习算法是多种多样的,例如:决策树、神经网络、贝叶斯分类器、近邻法以及支持向量机等等。Hus WH 提出了一种利用遗传算法作为搜索策略、决策树的分类准确性作为子集评价准则的Wrapper方法。

3.嵌入式选择
特征选择算法本身作为组成部分嵌入到学习算法中,最典型的即决策树算法,如ID3,C4.5以及Breiman的CART算法等,局册数算法在树生长的过程中每个递归步都必须选额一个特征,将样本划分成较小的子集,选择特征的依据通常是划分子节点的纯度,划分后子节点越纯,则说明划分效果越好。


 一些简单好用的特征选择方法 

  1. 单独相关指标排序:perason相关系数(过滤式)
    将目标变量和特征逐一计算相关系数,选择特征时优先考虑相关系数高的。pearson相关系数适用于目标变量和特征都是数值类型的情况,如果遇到其他类型则是进行方差分析,卡方检验,而重要性不是相关系数的大小,而是相关系数的t检验的1-p值的大小,1-p的值越大,那么相关系数表示的相关性值越可靠,这个输入变量越重要;同理,方差分析,卡方检验,也是通过比较1-F值得到的p的值,越大表示该变量越重要

  2. Relief算法:点在维度上的区分度度量指标(过滤式)
    算法从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找最近邻样本H,称为Near Hit,从和R不同类的样本中寻找最近邻样本M,称为NearMiss,然后根据以下规则更新每个特征的权重:如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;反之,如果R和Near Hit在某个特征的距离大于R和Near Miss上的距离,说明该特征对区分同类和不同类的最近邻起负面作用,则降低该特征的权重。以上过程重复m次,最后得到各特征的平均权重。特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。

  3. Gram-Schmidt正则化
    第一次寻找在目标上投影最大的特征为第一个,剩余未被选中的变量全都剔除在刚才被选中的变量上的投影,得到新的未被选中变量集合,接着在这个新的变量选择集中找出在目标投影上最大的特征,循环继续。停止条件是事先定好的特征数。

  4. 后退法
    该方法先把所需要的特征集合初始化为一个包含所有特征的全集,然后再算法的每次迭代过程中删除一个特征,使得剩余的特征集合的评价函数达到最优,直到剩余特征个数符合要求。





参考:

[1]FeatureExtraction, Foundations and Applications -- Isabelle Guyon, Steve Gunn, MasoudNikravesh, Lotfi A. Zadeh

[2]http://blog.csdn.net/ferrarild/article/details/18792613

[3]高维数据的特征选择及基于特征选择的集成学习研究 张丽新

 构建特征(转换) 

原始数据的变量本身就是一个特征,有时会对其中部分变量进行一些转换,这样做可能会提高模型的稳定性和准确率。

常见的特征构建(转换)方式有:

  1. 标准化
    x'=(x-μ)/σ,即原始数值减去均值除以标差,对原始变量进行了对中和归一,去掉幅度的影响

  2. 归一化
    x'=(x-MinValue)/(MaxValue-MinValue),实现将原始变量值域划归到[0,1]区间,去掉量纲的影响

  3. 信号增强
    常用的方法是:傅里叶变换、小波变换,主要用于信号处理、图像处理

  4. 降维技术
    PCA,MDS(多维尺度变换) 【降维技术时常应用于数据可视化
    上图是一个高维数据集进行聚类后分成6类,用mds方法降维到二维平面上,用不同颜色表示不同的类别。这是一个mds用户数据可视化的例子,用肉眼检验聚类效果

  5. 非线性扩展
    比如原始特征有x1,x2,构造一个新的特征为x1*x2 ,在线性回归中出现称之为交叉项。

  6. 离散化
    又称为分箱

    1. 等深分箱:记录数在各个分箱内相同

    2. 等宽分箱:在属性值的区间上平均分布

    3. 自定义:根据业务经验分箱

    4. 熵:按照最小熵分箱,决策树里面连续型变量在节点的分裂点就是依据此原理

以上这些方法,有些不会改变原始数据空间的维度(标准化,归一化),有些会升高原始数据空间的维度(非线性膨胀、离散化),有些降低原始数据空间维度。特征转换后最好和原始的也一起放入宽表,比较后再选择筛选。线性相关并不意味着特征冗余。因为在较高维的空间可以让点分离,可能就会出现一清晰的分割面。


 选择特征 

常见的特征选择方法主要有3种:

1.过滤式选择
早期的特征选择算法大多属于过滤式特征选择,过滤式特征选择的评价标准从数据集本身的内在性质获得,与特定的学习算法无关,因此有较好的通用性。通常选择和类别相关度大的特征或者特征子集。基本观点是:相关度较大的特征或者特征子集会在分类器上可以获得较高的准确率。

2.包裹式选择
用学习算法的性能来评价特征子集的优劣。Wrapper方法需要训练一个分类器,根据分类器的性能对该特征子集进行评价。Wrapper方法中用以评价特征选择的学习算法是多种多样的,例如:决策树、神经网络、贝叶斯分类器、近邻法以及支持向量机等等。Hus WH 提出了一种利用遗传算法作为搜索策略、决策树的分类准确性作为子集评价准则的Wrapper方法。

3.嵌入式选择
特征选择算法本身作为组成部分嵌入到学习算法中,最典型的即决策树算法,如ID3,C4.5以及Breiman的CART算法等,局册数算法在树生长的过程中每个递归步都必须选额一个特征,将样本划分成较小的子集,选择特征的依据通常是划分子节点的纯度,划分后子节点越纯,则说明划分效果越好。


 一些简单好用的特征选择方法 

  1. 单独相关指标排序:perason相关系数(过滤式)
    将目标变量和特征逐一计算相关系数,选择特征时优先考虑相关系数高的。pearson相关系数适用于目标变量和特征都是数值类型的情况,如果遇到其他类型则是进行方差分析,卡方检验,而重要性不是相关系数的大小,而是相关系数的t检验的1-p值的大小,1-p的值越大,那么相关系数表示的相关性值越可靠,这个输入变量越重要;同理,方差分析,卡方检验,也是通过比较1-F值得到的p的值,越大表示该变量越重要

  2. Relief算法:点在维度上的区分度度量指标(过滤式)
    算法从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找最近邻样本H,称为Near Hit,从和R不同类的样本中寻找最近邻样本M,称为NearMiss,然后根据以下规则更新每个特征的权重:如果R和Near Hit在某个特征上的距离小于R和Near Miss上的距离,则说明该特征对区分同类和不同类的最近邻是有益的,则增加该特征的权重;反之,如果R和Near Hit在某个特征的距离大于R和Near Miss上的距离,说明该特征对区分同类和不同类的最近邻起负面作用,则降低该特征的权重。以上过程重复m次,最后得到各特征的平均权重。特征的权重越大,表示该特征的分类能力越强,反之,表示该特征分类能力越弱。

  3. Gram-Schmidt正则化
    第一次寻找在目标上投影最大的特征为第一个,剩余未被选中的变量全都剔除在刚才被选中的变量上的投影,得到新的未被选中变量集合,接着在这个新的变量选择集中找出在目标投影上最大的特征,循环继续。停止条件是事先定好的特征数。

  4. 后退法
    该方法先把所需要的特征集合初始化为一个包含所有特征的全集,然后再算法的每次迭代过程中删除一个特征,使得剩余的特征集合的评价函数达到最优,直到剩余特征个数符合要求。


上表来自于【1】中Introdution一章,对几种简单的特征选择方法进行总结



参考:

[1]FeatureExtraction, Foundations and Applications -- Isabelle Guyon, Steve Gunn, MasoudNikravesh, Lotfi A. Zadeh

[2]http://blog.csdn.net/ferrarild/article/details/18792613

[3]高维数据的特征选择及基于特征选择的集成学习研究 张丽新

猜你喜欢

转载自blog.csdn.net/u012891477/article/details/73647765
今日推荐