机器学习(周志华) 参考答案 第十一章 特征选择与稀疏学习
机器学习(周志华西瓜书) 参考答案 总目录
压缩感知这个以前别人嘴里很高端的名次,现在终于自己遇到了。
1.试编程实现Relief算法,并考察其在西瓜数据集3.0上的运行结果。
2.试写出Relief-F的算法描述。
相比Relief增加了多分类的样本所占的比例,很奇怪为什么相同的分类不需要乘上对应的比例。
------------------------------------------------
输入:
数据集D;
过程:
将数据集连续属性参数用Min-max归一化
计算数据集各样本分类的概率p
计算数据集各样本两两距离dist
for x in D
根据$dist$找出各分类离$x$最近的样本集合$xmin$
for xm in xmin
if(x分类与xm相同)
for i=1:k
θ_i=θ_i-diff(x_i,xm_i)^2
end for
else
for i=1:k
θ_i=θ_i+p_i*diff(x_i,xm_i)^2
end for
end if
end for
end for
输出:
各属性相关统计量θ
------------------------------------------------
3.Relief算法是分别考察每个属性的重要性,是设计一个能考虑每对属性重要性的改进算法。
由于过滤式的算法都是很老的算法了,并没有去想太多。
一个简单的方法,将单一属性的相关统计量计算出来后,两两相加得到每对属性的相关统计量。不过这样并没有什么用,所有属性还是认为互不相关。
4.试为LVW设计一个改进算法,即便有运行时间限制,该算法也一定能给出解。
LVW结束循环的条件是连续T次随机出来的特征都比当前最优特征集合要差。当T和特征集合A很大时,LVW需要的迭代时间很长。如果有运行时间限制,可以再给定一个结束条件,设最多迭代次数t,当总迭代次数达到t的时候,结束迭代并返回当前最优的特征集合。t的值根据限定的时间来估计。
5.结合图11.2,是举例说明L1正则化在何种情形下不能产生稀疏解。
如图所示,如果平方误差等值线与坐标轴相交前就与
范数等值线相交了,就无法得到稀疏解。
6.试析岭回归与支持向量机的联系。
岭回归与支持向量机相同的地方就是目标函数中都有参数项
项。
不同点:
- 岭回归中的 是作为罚项,防止过拟合和病态矩阵的产生,而支持向量机中 是优化目标。
- 岭回归主要优化目标是累积平方误差。而线性支持向量机不以平方误差作为参考,而是将误差作为约束,来保证样本必须被求出的直线分隔,即 ,所以要求样本线性可分。
7.试述直接求解 范数正则化会遇到的困难。
由于 范数不连续,非凸,无法用解析法很好的表示,只能通过遍历来寻求最优解,这导致 范数的最优化为题是个NP难问题。
8.试给出求解 范数最小化问题中的闭式解(11.14)的详细推到过程。
由(11.14):
即:
设
让 对各 求偏导并令它等于0
则
当 时,有 ,即
当 时,有 ,即
那么当 时,
求出的
是最优的
,即
得出(11.14)。
9.试述字典学习与压缩感知对稀疏性利用的异同。
字典学习通过学习出的字典使属性适度稀疏,使得文本数据在字频上线性可分,从而提升如SVM获得更好的性能。
压缩感知则是希望原始信号本身虽然不稀疏,但是他内部是高度相关的,这样可以通过
,使得s是一个稀疏的向量。此时通过采样信号y来还原s时可以得到足够接近的结果,从而更好的还原原始信号x。
10.试改进(11.15),以学习出具有分组稀疏性的字典。
一般字典学习(11.15):
假设字典具有分组结构,即同一个分组内的变量同为非0或者同为0。
输入:分组属性
。
输出:参数属性
,要学习的字典为
参数学习:
对于每个
求出
其中
其中
是组成
的向量
所有求出来的
组成集合
字典学习:
求出
其中
参考文献,书261页的