机器学习(周志华) 参考答案第十章降维与度量学习

机器学习(周志华西瓜书) 参考答案总目录

http://blog.csdn.net/icefire_tyh/article/details/52064910

1.编程实现k邻近分类器，在西瓜数据集3.0α上比较其与决策树分类边界的异同。

http://blog.csdn.net/icefire_tyh/article/details/52243081

2.令 $err,err^$ 分别表示最近邻分类器与贝叶斯最优分类器的期望错误率，试证明： $err^ \leq err \leq err^(2-\frac{|Y|}{|Y|-1}err^*)$ 。

由书226页可知 $err=1-\sum_{c \in Y}P^2(c|x)$
$err*=1-max_{c \in Y}P(c|x)$
设 $c^*=argmax_{c \in Y}P(c|x)$
则 $err*=1-P(c^*|x)$
左边：
由于 $P(c^∗|x) =max_{c \in Y}P(c|x)$

$\sum_{c \in Y}P^2(c|x)$ 可以看出 $P(c|x)$ 的带权线性组合，总权值为1，结果肯定会小于他们的最大值 $P(c^∗|x)$

即： $P(c^∗|x)>\sum_{c \in Y}P^2(c|x)$

所以 $err^* \leq err$

右边：
$err=1-\sum_{c \in Y}P^2(c|x)=1-P^2(c^*|x)-\sum_{c \in Y-c^*}P^2(c|x)=(2-err^*)err^*-\sum_{c \in Y-c^*}P^2(c|x)$

当剩余的 $P(c|x)$ 全部相等时， $\sum_{c \in Y-c^*}P^2(c|x)$ 取最小值，即 $P_{c \in Y-c^*}(c|x)=\frac{err^*}{|Y|-1}$

$\sum_{c \in Y-c^*}P^2(c|x) \geq \frac{(err^*)^2}{|Y|-1}$

所以 $err \leq (2−err^∗)err^∗ - \frac{(err^*)^2}{|Y|-1}=err^*(2-\frac{|Y|}{|Y|-1}*err^*)$

3.在对高维数据降维前应该先进性“中心化”，常见的方法是将协方差阵 $XX^T$ 转换为 $XHH^TX^T$ ，其中 $H=I-\frac{1}{m}11^T$ ，试讲述原因。

假设X是k*m矩阵，其中m是样本数，k是维度。
中心化即使每个样本减去中心 $\bar{x}$ ，即 $\bar{X}=X-\bar{x}*(1^{m*1})^T$
又 $\bar{x}=\frac{1}{m}X*1^{m*1}$
所以 $\bar{X}=X-\frac{1}{m}X*1^{m*1}*(1^{m*1})^T=X(I-\frac{1}{m}11^T)=XH$
其中1是 $1^{m*1}$ 。

4.在实践中，协方差阵XX^T的特征值分解常由中心化后的样本矩阵X的奇异值分解替代，试讲述原因。

假设样本阵X是k*m矩阵，其中m是样本数，k是维度。
使用协方差阵求特征值分解时，协方差阵与属性的维度成平方比，这需要占用大量的空间。当属性维度与样本数差距巨大时，这种不必要的开销更加明显。
对样本矩阵进行奇异值分解，很明显非0奇异值的个数m’，肯定不会大于样本数和属性维度较小的一个(一般情况k>>m)，这样使得求出来的特征向量阵为 $k*m'(m' \leq m)$ ，显然当 $m<<k$ 时， $m'k$ 的开销会远远小于 $k^2$ 。

5.降维中涉及的投影矩阵通常要求是正交的，试述正交非正交投影矩阵用于降维的优缺点。

当特征向量两两正交时，任何两种属性都是相互独立的，其中一个的取值不会影响另一个。但是属性并非全部不相关，比如书上说的，西瓜的体积和重量，显然是正相关的。这时如果两个属性的特征向量不成交会有更好的效果。

6.试使用matlab的PCA函数对人脸数据进行降维，并观察前20个特征向量对应的图像。

http://blog.csdn.net/icefire_tyh/article/details/52243639

7.试述核化线性降维与流型学习之间的联系与优缺点。

非线性核的线性降维与流型学习都属于非线性降维。
核化线性降维有线性降维的优点，比如KPCA与保留了最主要的特征，计算方法简单，使用非线性核可以实现非线性降维。缺点一个是核化后的缺点，复杂度与样本总数成正比，当样本很多时复杂度会很高；另外由于PCA使用的正交空间，如果属性相关性比较大，会出现不好的结果。
流型学习：流形在局部具有欧式空间的性质，能用欧氏距离来进行距离计算。它的优点就是把高维中不能直接计算的距离使用局部距离来累计表示。比如Isomap,它使用测地线距离来表示高维距离。缺点一是如果本的分布不均匀，导致设置的k近邻或e距离近邻中存在短路与断路的存在，不利于计算全局距离。二是并没有特别好的方法去计算新样本的低维坐标。

8.k近邻与e近邻图存在短路和断路问题会给Isomap造成困扰，设计一个来缓解。

短路是由于k与e设置过大造成的，断路是因为k与e太小或者样本分布问题造成的。
比如5个远离其他样本，但他们5个靠的很近，导致5近邻时他们与其他所有样本距离无穷远而导致断路。
这里设计一条规则来解决这个问题：
假设每个点寻找到一个近邻，就连上一条边
那么对每个点遍历寻找近邻的时候，至少要加入一条新的边。
这样可以解决断路问题。至于新增加的边，就是该样本未连边的样本中离它最近的样本。

9.设计一个方法为新样本找到LLE降维后的低维坐标。

如书236的方法，为新样本 $x$ 寻找它的近邻，设集合为 $Q$
通过最小化平方误差 $min|x-\sum_{i \in Q}w_ix_i|^2$ 求出各近邻点的权值。
把求出权值与近邻点在低维坐标线性组合求出新样本的坐标。
$z=\sum_{i \in Q_z}w_iz_i$

10.试述如何确保度量学习产生的距离能满足距离度量四条基本性质。