机器学习(周志华) 参考答案第十一章特征选择与稀疏学习

机器学习(周志华西瓜书) 参考答案总目录

http://blog.csdn.net/icefire_tyh/article/details/52064910

    压缩感知这个以前别人嘴里很高端的名次，现在终于自己遇到了。

1.试编程实现Relief算法，并考察其在西瓜数据集3.0上的运行结果。

http://blog.csdn.net/icefire_tyh/article/details/52254562

2.试写出Relief-F的算法描述。

相比Relief增加了多分类的样本所占的比例，很奇怪为什么相同的分类不需要乘上对应的比例。

------------------------------------------------
输入：
    数据集D；

过程：
将数据集连续属性参数用Min-max归一化
计算数据集各样本分类的概率p
计算数据集各样本两两距离dist
for x in D
    根据$dist$找出各分类离$x$最近的样本集合$xmin$
    for xm in xmin
        if(x分类与xm相同)
            for i=1:k
                θ_i=θ_i-diff(x_i,xm_i)^2
            end for
        else
            for i=1:k
                θ_i=θ_i+p_i*diff(x_i,xm_i)^2
            end for         
        end if
    end for
end for

输出：
各属性相关统计量θ
------------------------------------------------

3.Relief算法是分别考察每个属性的重要性，是设计一个能考虑每对属性重要性的改进算法。

由于过滤式的算法都是很老的算法了，并没有去想太多。
一个简单的方法，将单一属性的相关统计量计算出来后，两两相加得到每对属性的相关统计量。不过这样并没有什么用，所有属性还是认为互不相关。

4.试为LVW设计一个改进算法，即便有运行时间限制，该算法也一定能给出解。

LVW结束循环的条件是连续T次随机出来的特征都比当前最优特征集合要差。当T和特征集合A很大时，LVW需要的迭代时间很长。如果有运行时间限制，可以再给定一个结束条件，设最多迭代次数t，当总迭代次数达到t的时候，结束迭代并返回当前最优的特征集合。t的值根据限定的时间来估计。

5.结合图11.2，是举例说明L1正则化在何种情形下不能产生稀疏解。

如图所示，如果平方误差等值线与坐标轴相交前就与 $L_1$ 范数等值线相交了，就无法得到稀疏解。
L1正则化

6.试析岭回归与支持向量机的联系。

岭回归与支持向量机相同的地方就是目标函数中都有参数项 $||w||^2$ 项。
不同点：

岭回归中的 $||w||^2$ 是作为罚项，防止过拟合和病态矩阵的产生，而支持向量机中 $||w||^2$ 是优化目标。
岭回归主要优化目标是累积平方误差。而线性支持向量机不以平方误差作为参考，而是将误差作为约束，来保证样本必须被求出的直线分隔，即 $y_i(w^Tx_i+b) \geq 1$ ，所以要求样本线性可分。

7.试述直接求解 $L_0$ 范数正则化会遇到的困难。

由于 $L_0$ 范数不连续，非凸，无法用解析法很好的表示，只能通过遍历来寻求最优解，这导致 $L_0$ 范数的最优化为题是个NP难问题。

8.试给出求解 $L_1$ 范数最小化问题中的闭式解(11.14)的详细推到过程。

由(11.14)： $x_{k+1}=argmin_x\frac{L}{2}||x-z||^2+λ||x||_1$

即： $x_{k+1}=argmin_x\frac{L}{2}\sum_i(x^i-z^i)^2+λ\sum_i|x^i|$

设 $f=\frac{L}{2}\sum_i(x^i-z^i)^2+λ\sum_i|x^i|$

让 $f$ 对各 $x^i$ 求偏导并令它等于0

$\frac{∂f}{∂x^i}=L(x^i-z^i)+λsign(x^i)=0$

则 $x_i=z_i-\frac{λ}{L}sign(x^i)$

当 $x^i>0$ 时，有 $x^i=z^i-\frac{λ}{L}>0$ ，即 $z^i>\frac{λ}{L}$

当 $x^i<0$ 时，有 $x^i=z^i+\frac{λ}{L}<0$ ，即 $z^i<-\frac{λ}{L}$

那么当 $|z^i|<\frac{λ}{L}$ 时， $x^i=0$

求出的 $x^i$ 是最优的 $x^i$ ，即 $x_{k+1}^i=x_i$
得出(11.14)。

9.试述字典学习与压缩感知对稀疏性利用的异同。

字典学习通过学习出的字典使属性适度稀疏，使得文本数据在字频上线性可分，从而提升如SVM获得更好的性能。
压缩感知则是希望原始信号本身虽然不稀疏，但是他内部是高度相关的，这样可以通过 $x=Ψs$ ,使得s是一个稀疏的向量。此时通过采样信号y来还原s时可以得到足够接近的结果，从而更好的还原原始信号x。

10.试改进(11.15)，以学习出具有分组稀疏性的字典。

一般字典学习(11.15)： $min_{B,α_i}\sum_i^m||x_i-Bα_i||_2^2+λ||α_i||_1$

假设字典具有分组结构，即同一个分组内的变量同为非0或者同为0。
输入：分组属性 $G$ 。
输出：参数属性 $A$ ，要学习的字典为 $D$
参数学习：
对于每个 $G_i \in G$
求出 $A^*=argmin_AQ(A,G,D)$
其中 $Q(A,G,D)=\sum_{i \in G_i}^m||x_i-Dα_i||_2^2+λ||α_i||_1$
其中 $α_i$ 是组成 $A$ 的向量
所有求出来的 $A$ 组成集合 $A_s$
字典学习：
求出 $D^*=argmin_DQ(A_s,D)$
其中 $Q(A_s,D)=\sum_{i=1}^nQ(A_i,G_i,D)$

参考文献，书261页的 $[Bengio et al., 2009]$