机器学习(周志华) 参考答案 第十一章 特征选择与稀疏学习

版权声明:本文为博主原创文章,技术有限,如果发现错误或问题请告知博主,转载请注明出处,谢谢。 https://blog.csdn.net/icefire_tyh/article/details/52254580

机器学习(周志华) 参考答案 第十一章 特征选择与稀疏学习

机器学习(周志华西瓜书) 参考答案 总目录


    压缩感知这个以前别人嘴里很高端的名次,现在终于自己遇到了。

1.试编程实现Relief算法,并考察其在西瓜数据集3.0上的运行结果。


2.试写出Relief-F的算法描述。

相比Relief增加了多分类的样本所占的比例,很奇怪为什么相同的分类不需要乘上对应的比例。

------------------------------------------------
输入:
    数据集D;

过程:
将数据集连续属性参数用Min-max归一化
计算数据集各样本分类的概率p
计算数据集各样本两两距离dist
for x in D
    根据$dist$找出各分类离$x$最近的样本集合$xmin$
    for xm in xmin
        if(x分类与xm相同)
            for i=1:k
                θ_i=θ_i-diff(x_i,xm_i)^2
            end for
        else
            for i=1:k
                θ_i=θ_i+p_i*diff(x_i,xm_i)^2
            end for         
        end if
    end for
end for

输出:
各属性相关统计量θ
------------------------------------------------

3.Relief算法是分别考察每个属性的重要性,是设计一个能考虑每对属性重要性的改进算法。

由于过滤式的算法都是很老的算法了,并没有去想太多。
一个简单的方法,将单一属性的相关统计量计算出来后,两两相加得到每对属性的相关统计量。不过这样并没有什么用,所有属性还是认为互不相关。


4.试为LVW设计一个改进算法,即便有运行时间限制,该算法也一定能给出解。

LVW结束循环的条件是连续T次随机出来的特征都比当前最优特征集合要差。当T和特征集合A很大时,LVW需要的迭代时间很长。如果有运行时间限制,可以再给定一个结束条件,设最多迭代次数t,当总迭代次数达到t的时候,结束迭代并返回当前最优的特征集合。t的值根据限定的时间来估计。


5.结合图11.2,是举例说明L1正则化在何种情形下不能产生稀疏解。

如图所示,如果平方误差等值线与坐标轴相交前就与 L 1 范数等值线相交了,就无法得到稀疏解。
L1正则化


6.试析岭回归与支持向量机的联系。

岭回归与支持向量机相同的地方就是目标函数中都有参数项 | | w | | 2 项。
不同点:

  • 岭回归中的 | | w | | 2 是作为罚项,防止过拟合和病态矩阵的产生,而支持向量机中 | | w | | 2 是优化目标。
  • 岭回归主要优化目标是累积平方误差。而线性支持向量机不以平方误差作为参考,而是将误差作为约束,来保证样本必须被求出的直线分隔,即 y i ( w T x i + b ) 1 ,所以要求样本线性可分。

7.试述直接求解 L 0 范数正则化会遇到的困难。

由于 L 0 范数不连续,非凸,无法用解析法很好的表示,只能通过遍历来寻求最优解,这导致 L 0 范数的最优化为题是个NP难问题。


8.试给出求解 L 1 范数最小化问题中的闭式解(11.14)的详细推到过程。

由(11.14): x k + 1 = a r g m i n x L 2 | | x z | | 2 + λ | | x | | 1

即: x k + 1 = a r g m i n x L 2 i ( x i z i ) 2 + λ i | x i |

f = L 2 i ( x i z i ) 2 + λ i | x i |

f 对各 x i 求偏导并令它等于0

f x i = L ( x i z i ) + λ s i g n ( x i ) = 0

x i = z i λ L s i g n ( x i )

x i > 0 时,有 x i = z i λ L > 0 ,即 z i > λ L

x i < 0 时,有 x i = z i + λ L < 0 ,即 z i < λ L

那么当 | z i | < λ L 时, x i = 0

求出的 x i 是最优的 x i ,即 x k + 1 i = x i
得出(11.14)。


9.试述字典学习与压缩感知对稀疏性利用的异同。

字典学习通过学习出的字典使属性适度稀疏,使得文本数据在字频上线性可分,从而提升如SVM获得更好的性能。
压缩感知则是希望原始信号本身虽然不稀疏,但是他内部是高度相关的,这样可以通过 x = Ψ s ,使得s是一个稀疏的向量。此时通过采样信号y来还原s时可以得到足够接近的结果,从而更好的还原原始信号x。


10.试改进(11.15),以学习出具有分组稀疏性的字典。

一般字典学习(11.15): m i n B , α i i m | | x i B α i | | 2 2 + λ | | α i | | 1

假设字典具有分组结构,即同一个分组内的变量同为非0或者同为0。
输入:分组属性 G
输出:参数属性 A ,要学习的字典为 D
参数学习:
对于每个 G i G
求出 A = a r g m i n A Q ( A , G , D )
其中 Q ( A , G , D ) = i G i m | | x i D α i | | 2 2 + λ | | α i | | 1
其中 α i 是组成 A 的向量
所有求出来的 A 组成集合 A s
字典学习:
求出 D = a r g m i n D Q ( A s , D )
其中 Q ( A s , D ) = i = 1 n Q ( A i , G i , D )

参考文献,书261页的 [ B e n g i o e t a l . , 2009 ]

猜你喜欢

转载自blog.csdn.net/icefire_tyh/article/details/52254580