第十一章 特征选择和稀疏学习

11.1子集搜索和评价

所谓子集搜索就是一个物体有很多属性,但是对当前学习任务来说,可能只有少部分属性是重要的,这叫“相关特征”,没什么用的叫“无关特征”。从特征集中选出“相关特征”叫特征选择。

两个原因要特征选择:维数灾难、降低学习难度。


两个关键环节:

1、如何根据评价结果取获取下一个候选特征子集?

前向搜索/后向搜索/双向搜索


2、如何评价特征子集好坏?

计算信息增益。


决策树算法即是吧信息增益和前向搜索结合,是一种特征选择方法。


常见特征选择方法:过滤式、包裹式、嵌入式


11.2 过滤式选择

即先特征选择,后训练学习器。

代表:Relief

相关统计量对应于属性j的分量为:



分量值越大,代表该属性分类能力越强。

只需在数据集的采样上而不用在整个数据集上估计相关统计量。

扩展体Relif-F能处理多分类问题。


11.3包裹式选择

包裹式选择直接把最终要使用的学习器的性能作为特征子集的评价标准。

从性能来看是要优于过滤式,但计算开销大。

代表:LVW。

算法描述:



如果运行时间有限制,可能给不出解。


11.4嵌入式选择与L1正则化

将特征选择与学习器训练融为一体。

优化目标:L2范式正则化


如果用L1范式正则化(LASSO):

 

L1比L2更容易获得“稀疏”解。


L1正则化问题的求解可以用近端梯度下降法。

最终闭式解:


i表示x(k+1)和z的第i个分量。


11.5 稀疏学习和字典表示

当样本数据是一个稀疏矩阵时,对学习任务来说会有不少的好处,例如很多问题变得线性可分,储存更为高效等。这便是稀疏表示与字典学习的基本出发点。稀疏矩阵即矩阵的每一行/列中都包含了大量的零元素,且这些零元素没有出现在同一行/列,对于一个给定的稠密矩阵,若我们能通过某种方法找到其合适的稀疏表示,则可以使得学习任务更加简单高效,我们称之为稀疏编码(sparse coding)字典学习(dictionary learning)

给定一个数据集,字典学习/稀疏编码指的便是通过一个字典将原数据转化为稀疏表示,因此最终的目标就是求得字典矩阵B及稀疏表示α,使用变量交替优化的策略能较好地求得解。

这里写图片描述


11.6 压缩学习

压缩感知在前些年也是风风火火,与特征选择、稀疏表示不同的是:它关注的是通过欠采样信息来恢复全部信息。在实际问题中,为了方便传输和存储,我们一般将数字信息进行压缩,这样就有可能损失部分信息,如何根据已有的信息来重构出全部信号,这便是压缩感知的来历,压缩感知的前提是已知的信息具有稀疏表示。下面是关于压缩感知的一些背景:

这里写图片描述




猜你喜欢

转载自blog.csdn.net/steph_curry/article/details/79172686