机器学习(周志华) 参考答案第九章聚类

机器学习(周志华西瓜书) 参考答案总目录

http://blog.csdn.net/icefire_tyh/article/details/52064910

    聚类由于不存在客观标准，任何有点道理的角度都能提出新的聚类算法。

1.试证明： $P \geq 1$ 时，闽可夫斯基距离满足度量的四条基本性质； $0\leq P < 1$ 时，闽可夫斯基距离不满足直递性；P趋近于无穷大时，闽可夫斯基距离等于对应分量的最大绝对距离，即 $lim_{p \rightarrow ∞}(\sum_{u=1}^n|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}=max_u|x_{iu}-x_{ju}|$ 。

显然 $(\sum_{u=1}^n|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}$ 满足非负性，同一性和对称性。只考虑直递性：
$dist_{mk}(x_i,x_j)=(\sum_{u=1}^n|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}$
$dist_{mk}(x_i,x_k)=(\sum_{u=1}^n|x_{iu}-x_{ku}|^p)^{\frac{1}{p}}$
$dist_{mk}(x_j,x_k)=(\sum_{u=1}^n|x_{ju}-x_{ku}|^p)^{\frac{1}{p}}$
显然当 $x_{ku}$ 不在 $x_{iu}$ 和 $x_{ju}$ 之间， $|x_{iu}-x_{ku}|+|x_{ju}-x_{ku}|$ 会明显大于 $|x_{iu}-x_{ju}|$ ,使得直递性成立。
取特殊情况：对所有的u，都有 $x_{ju} \leq x_{ku} \leq x_{iu}$ ，
设 $a_u=|x_{iu}-x_{ku}|$ ， $b_u=|x_{ku}-x_{ju}|$ ，则 $|x_{iu}-x_{ju}|=a_u+b_u$ ，且 $a_u,b_u \geq 0$
所以根据闽可夫斯基不等式
$(1)$ . $p \geq 1$ 时，有 $(\sum a_u^p)^{\frac{1}{p}}+(\sum b_u^p)^{\frac{1}{p}} \geq (\sum (a_u+b_u)^p)^{\frac{1}{p}}$ ，直递性成立。
$(2)$ . $p \leq 1$ 时，有 $(\sum a_u^p)^{\frac{1}{p}}+(\sum b_u^p)^{\frac{1}{p}} \leq (\sum (a_u+b_u)^p)^{\frac{1}{p}}$ ，直递性不成立。
$(3)$ .根据极限法则可以得出
$lim_{p \rightarrow ∞}(\sum_{u=1}^n|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}=(max_u|x_{iu}-x_{ju}|)lim_{p \rightarrow ∞}(\sum_{u=1}^n(\frac{|x_{iu}-x_{ju}|}{max_u|x_{iu}-x_{ju}|})^p)^{\frac{1}{p}}=max_u|x_{iu}-x_{ju}|$
由于 $p \rightarrow ∞$ ， $\sum_{u=1}^n(\frac{|x_{iu}-x_{ju}|}{max_u|x_{iu}-x_{ju}|})^p=1$
所以得证。

2.同一样本空间中的集合X与Z之间的距离可以通过“豪斯多夫距离”计算： $dist_H(X,Z) = max(dist_h(X,Z),dist_h(Z,X))$ ，其中 $dist_h(X,Z) = max_{x \in X}min{z \in Z}||x-z||_2$ 证明豪斯多夫距离满足四条距离度量基本性质。

这个距离有点不好理解，形象点说 $dist_h(X,Z)$ 是对X内所有点做圆并慢慢扩大，遇到的第一个属于Z的点时的半径，就是当前点的 $min{z \in Z}||x-z||_2$ ，而所有半径中最大的一个，就是dist_h(X,Z)。由此可以看出 $dist_h(X,Z)$ 是X中的样本往Z做圆， $dist_h(Z,X)$ 是Z中的样本往X做圆，所以两者不一定相当，取较大的一个作为距离。
非负性，同一性和对称性是很明显的，省略。
直递性：由于表达式太抽象，解析法不知道怎么泛化去解。取个简单的特殊情况，假设集合是连续的区间，在平面上用圆来表示
这里写图片描述
如图可知，
$dist_h(X,Y)$ 是X,Y两个圆的距离加上直径，也就是圆心距加上X的半径减去Y的半径。
即 $dist_h(X,Y)=|o_x-o_y|+r_x-r_y$
那么 $dist_H(X,Y)$ 就是圆心距加上X，Y中较大的半径减去较小的半径

显然 $|o_x-o_z|+|o_y-o_z| \geq |o_x-o_y|$
假设 $r_x \geq r_y$
当 $r_z \geq r_x$ 时
$max(r_x,r_y)-min(r_x,r_y)=r_x-r_y \leq r_z-r_y=max(r_y,r_z)-min(r_y,r_z)$
当 $r_z \leq r_y$ 时
$max(r_x,r_y)-min(r_x,r_y)=r_x-r_y \leq r_x-r_z=max(r_x,r_z)-min(r_x,r_z)$
当 $r_x\geq r_z \geq r_y$ 时
$max(r_x,r_y)-min(r_x,r_y)=r_x-r_y=(r_x-r_z)+(r_z-r_y)=max(r_y,r_z)-min(r_y,r_z)+max(r_x,r_z)-min(r_x,r_z)$
所以 $dist_H(X,Z)+dist_H(Y,Z) \geq dist_H(X,Z)$

3.试析k均值算法能否找到最小化(9.24)的最优解。

不能，因为k均值算法只是局部最有的近似算法，只能找到初始化均值附近的局部最优解，无法找到全局最优解。

4.编程实现k均值算法，设置三组不同的k值，三组不同的初始中心点，在西瓜数据集4.0上进行实验，并讨论什么样的初始中心有利于取得好结果。

http://blog.csdn.net/icefire_tyh/article/details/52224394

5.基于DBSCAN的概念定义，若x为核心对象，有x密度可达的所有样本构成的集合X，试证明：X满足连接性和最大性。

由题意显然最大性是满足的。
连接性：假设 $x_i$ 为核心对象，由于 $x_j$ 可以由 $x_i$ 密度可达。则存在核心对象 $x_k$ ，使得 $x_i$ 与 $x_k$ 密度直达， $x_k$ 与 $x_j$ 密度直达。由于 $x_k$ 是核心对象，则 $x_k$ 与 $x_i$ 密度直达。且密度直达是密度可达的子集，所以 $x_k$ 与 $x_j$ 密度可达， $x_k$ 与 $x_i$ 密度可达，所以 $x_i$ 与 $x_j$ 密度相连。

6.试析AGNES算法使用最小距离和最大距离的区别。

最大距离可以认为是所有类别先生成一个能包围所有类内样本的最小圆，然后所有圆同时慢慢扩大相同的半径，哪个类圆能完全包围另一个类则停止，并合并这两个类。由于此时的圆已经包含另一个类的全部样本，所以称为全连接。
最小距离则是扩大时遇到第一个非自己类的点就停止，并合并这两个类。由于此时的圆只包含另一个类的一个点，所以称为单连接。

7.聚类结果中若每个簇都有一个凸包，且凸包不相交，则称为凸聚类。试析本章介绍的哪些聚类方法只能产生凸聚类，哪些能产生非凸聚类。

显然高斯混合聚类是一种可能产生非凸的聚类方式。
高斯混合聚类并不是去最小化类间均方误差，而是通过概率模型来计算每个样本属于每个分类的概率，最后概率最大的。高斯混合概率模型不再单纯与均值相关，而且和方差(协方差)有关，所以不再一定得到凸聚类。
其余如k-means,LVQ,DBSCAN,AGNES都是凸聚类。

8.试设计一个聚类性能度量指标，并与9.2比较。

略。

9.是设计一个能用于混合属性的非度量距离。

混合属性中的连续属性，可以标准的距离为距离参数。
对于非连续属性的距离参数，可以将属性看成是字符串，计算距离时，一对一对比两个字符串各个位置的值相同的次数，并通过计算求出距离。比如两个字符串长度分别为 $l_i,l_2$ ，一共对比 $l_il_2$ 次，相同的字符为k,那么距离参数可以认为是 $t(1-\frac{k}{l_il_2})$ ，t为一个合适缩放倍数。
然后通过指数函数将距离参数影射成真正的距离，此时的距离是非度量距离。

10.实现一种能自动确定聚类数的改进k均值算法，编程实现并在西瓜数据集上运行。

http://blog.csdn.net/icefire_tyh/article/details/52224612