SigAI——深入浅出聚类算法

导言

聚类问题是机器学习中无监督学习的典型代表，在数据分析、模式识别的很多实际问题中得到了应用。在本文中，将为大家深入浅出的介绍聚类问题的定义以及各种典型的聚类算法，帮助大家建立对聚类算法最直观的、本质的概念。

什么是聚类

我们知道，分类问题是机器学习中最常见的一类问题，它的目标是确定一个物体所属的类别。例如，我们要判定一个水果是苹果、杏，还是桃。解决这类问题的办法是先给一些各种类型的水果让算法学习，然后根据学习得到的经验对一个水果的类型做出判定。这种做法称为有监督学习，它有训练和预测两个过程，在训练阶段，用大量样本进行学习，得到一个判定水果类型的模型。接下来，在预测阶段，给一个水果，就可以用这么模型预测出它的类别。这一过程如下图所示：
这里写图片描述

聚类也是要确定一个物体的类别，但是和分类问题不同，这里没有事先定义好的类别，聚类算法要自己想办法把一批样本分开，分成多个类，保证每一个类中的样本之间是相似的，而不同类的样本之间是不同的。在这里，类型被称为“簇（cluster）”。以下面图为例，有一堆水果，但事先并没有告诉你有哪些水果，也没有一个训练好的判断各种水果的模型，聚类算法要自动将这堆水果进行归类：
这里写图片描述

这一次，老师并没有事先告诉孩子们各种水果是什么样子的，孩子们需要自己将水果进行归类划分，而且这些水果可能是他们不认识的。这里没有统一的、确定的划分标准，有些孩子将颜色相似的水果归在了一起，而另外一些孩子将形状相似的水果归在了一起，还有一些孩子将尺寸大小相似的水果归在了一起。

聚类算法没有训练过程，这是和分类算法最本质的区别，算法要根据自己定义的规则，将相似的样本划分在一起，不相似的样本分成不同的类

问题的严格定义

聚类问题可以抽象成数学中的集合划分问题。假设一个样本集 $C$ :

C = {x_{1}, \dots, x_{l}}

$C=\left\{ x_1,\cdots ,x_l \right\}$
聚类算法把这个样本集划分成

m

$m$ 个不相交的子集

C_{1}, \dots, C_{m}

$C_1,\cdots,C_m$ 即簇。这些子集的并集是整个样本集：

C_{1} \cup C_{2} \dots \cup C_{m} = C

$C_1\cup C_2 \cdots \cup C_m=C$
每个样本只能属于这些子集中的一个，即任意两个子集之间没有交集：

C_{i} \cap C_{j} = ϕ, \forall i, j, i \neq j

$C_i \cap C_j=\phi,\forall i,j, i \neq j$
同一个子集内部的各个样本之间要很相似，不同子集的样本之间要尽量不同。其中

m

$m$ 的值可以由人工设定，也可以由算法确定。在这里划分的标准是不确定的，具体什么叫两个样本很相似，什么叫做不同，并没有统一的答案，需要聚类算法自己决定。例如，如果有下面的样本集：

{1, 2, 3, 4, 5, 6, 7, 8, 9}

$\left\{1,2,3,4,5,6,7,8,9\right\}$
我们可以划分成下面的两个子集：

\left\{1,3,5,7,9}\right\}\left\{2,4,6,8\right\}

$\left\{1,3,5,7,9}\right\}\left\{2,4,6,8\right\}$
划分的依据是第一个子集的元素都是奇数，第二个都是偶数。也可以划分成这个样：

$\left\{1,4,7\ ight\}\left\{2,5,8\right\}\left\{3,6,9\right\}

$$\left\{1,4,7\ ight\}\left\{2,5,8\right\}\left\{3,6,9\right\}$
这是按照每个数除以3之后的余数进行分类的。从这里可以看出，聚类并没有统一的对样本进行划分的标准。

簇的定义

聚类本质上是集合划分问题。因为没有人工定义的类别标准，因此算法要解决的核心问题是如何定义簇，唯一的要求是簇内的样本尽可能相似。通常的做法是根据簇内样本之间的距离，或是样本点在数据空间中的密度来确定。对簇的不同定义可以得到各种不同的聚类算法。常见的聚类算法有：

连通性聚类。典型代表是层次聚类算法，它根据样本之间的联通性来构造簇，所有联通的样本属于同一个簇。

基于质心的聚类。典型代表是K均值算法，它用一个中心向量来表示这个簇，样本所属的簇由它到每个簇的中心距离来确定。如下图所示：
这里写图片描述

在上图中有蓝色和黄色两个簇，它们由各自的簇中心向量表示（十字形状）。黑色的样本离蓝色的类中心更近，因此被划分到这一类。

基于概率分布的聚类。算法假设每种类型的样本服从同一种概率分布，如多维正态分布，典型代表是EM算法。

基于密度的聚类。典型代表是DBSCAN算法、OPTICS算法，以及均值漂移（Mean Shift）算法，它们将簇定义为空间中样本密集的区域。下图中有3个簇，它们都是样本分布密集的区域，对簇的形状规则无限制：
这里写图片描述

基于图的算法。这类算法用样本点构造出带权重的无向图，每个样本是图中的一个顶点，然后使用图论中的方法完成聚类。

主要的算法

接下来介绍几种典型的聚类算法，包括层次聚类、k均值聚类、EM算法、DBSCAN算法、OPTICS算法、Mean Shift算法、谱聚类算法。

层次聚类

对于现实生活中的某些问题，类型的划分具有层次结构。如水果分为苹果、杏、梨等，苹果又可以细分为黄元帅、红富士、蛇果等很多品种，杏和梨也是如此。将这种谱关系画出来，是一颗分层的树。层次聚类使用了这种做法，它反复将样本进行合并，形成一种层次的表示。

初始时每个样本各为一簇，然后开始逐步合并的过程。计算任意两个簇之间的距离，并将聚类最小的两个簇合并。下图是对一堆水果进行层次聚类的示意图：
这里写图片描述

算法依赖于两个簇的距离值，因此需要定义它的计算公式。常用的方案可有3种。第一种方案是使用两个簇中任意两个样本之间的距离的最大值，第二种方案是使用两个簇中任意两个样本之间的距离的最小值，第三种方案是使用两个簇中所有样本之间距离的均值。

基于质心的聚类

基于质心的聚类算法计算每个簇的中心向量，以此为依据来确定每个样本所属的类别，典型的代表有k均值聚类算法。

k均值算法是一种被广泛应用于实际问题的聚类算法。他将样本划分成多个类，参数由人工设定，算法将每个样本划分到离他最近的那个类中心所代表的类，而类中心的确定又依赖于样本的划分方案，这里存在着循环依赖，是一个先有鸡还是先有蛋的问题。
这里写图片描述

k均值算法解决此问题的方法是先给每个簇初始化一个不靠谱的中心向量值，然后计算每个样本离各个簇中心的距离，将其分到最近的那个簇中心所代表的簇。接下来根据对所有样本的分配重新计算每个簇的中心向量，它是该簇所有样本的均值。如此循环，直至收敛，这是一种迭代法。

算法在实现时需要考虑下面几个问题：

类中心向量的初始值，一般采用随机初始化。最简单的是Forgy算法，它从样本集中随机选择k个样本作为每个类的初始类中心。第二种方案是随机划分，它将所有样本随机的分配给k个类中的一个，然后按照这种分配方案计算各个类的中心向量。
参数k的设定，可以根据先验知识人工指定一个值，或者由算法自己确定。
迭代终止的判定规则。一般做法是计算本次迭代后的类中心和上一次迭代时的类中心之间的距离，如果小于指定的阈值，则算法终止。

K均值算法有很多改进版本，包括模糊C均值聚类，用三角不等式加速等。

基于概率分布的聚类

基于概率分布的聚类算法假设每个簇的样本服从相同的概率分布，这是一种生成模型。经常使用的是多维正态分布，如果服从这种分布，则为高斯混合模型，在求解时一般采用EM算法。

EM算法即期望最大化算法，是一种迭代法，用于聚类问题时，它同时估计出每个样本所属的簇以及每个簇的概率分布函数。如果要聚类的样本数据服从它所属簇的概率分布，则可以通过估计每个簇的概率分布以及每个样本所属的簇来完成聚类。估计每个簇概率分布的参数需要知道哪些样本属于这个簇，而确定每个样本属于哪个簇又需要知道每个簇的概率分布的参数，这存在循环依赖。EM算法在每次迭代时交替的解决上面的两个问题，直至收敛到局部最优解。

EM算法是一种迭代法，其目标是求解似然函数或后验概率的极值，而样本中具有无法观测的隐含变量。例如有一批样本分属于3类，每个类都服从正态分布，均值和协方差未知，并且每个样本属于哪个类也未知，需要在这种情况下估计出每个正态分布的均值和协方差。下图是一个例子，3个样本都服从正态分布，但是每个样本属于哪个类是未知的。
这里写图片描述

样本所属的类别就是隐含变量，这种隐含变量的存在导致了用最大似然估计求解时的困难。因为隐含变量的存在，我们无法直接通过最大化似然函数得到参数的公式解。可以采用一种策略，构造出对数似然函数的一个下界函数，这个下界函数更容易优化，然后优化这个下界。不断的改变优化变量的值使得下界函数的值升高，从而使得对数似然函数的值也升高，这就是EM算法所采用的思路。在实现时，下界函数的构造利用了Jensen不等式。

基于密度的聚类

基于密度的聚类算法的核心思想是根据样本点某一邻域内的邻居样本空间的密度，这类算法可以找出空间中形状不规则的簇，并不用指定簇的数量。算法的核心是计算每一处的密度值，以及根据密度来定义簇。

DBSCAN算法是一种基于密度的算法，对可以有效的处理噪声，发现任意形状的簇。它将簇定义为样本点密集的区域，算法从一个种子样本开始，持续向密集的区域生长，直至到达边界。
这里写图片描述

在上图中，从点a开始，先扩展到它的邻居b，c，d，e，即红色的圆所代表的邻域半径的点。然后又从点b开始，扩展到它的邻居点a，c，d，f，g，即绿色的圆所代表的邻域半径内的点，此时a，c已经被处理过了，直接忽略。然后从g开始，扩展到它的邻居点b，f，g，即蓝色的圆所代表的邻域半径的点，此时b，f已经处理过了。如此循环，直到将所有密集的点全部扩展到本簇中，形成蓝色的簇。用同样的方法可以得到黄色的簇，而灰色的点o，p，q则被人为是噪声点。

OPTICS算法是对DBSCAN算法的改进，对参数更不敏感。它不直接生成簇，而是对样本进行排序，从这个排序可以得到各种邻域半径和密度阈值时的聚类结果。
这里写图片描述

和DBSCAN算法不同的是，OPTICS在扩展一个簇的时候，总是从最密集的样本开始处理，按照这种顺序对每个样本排序，得到上图中的排序结果。从每个簇的种子节点开始，其后面的点都按照这种样本的密集度指标升序排列。根据这个排序结果可以得到各种参数下的聚类结果。

均值漂移（Mean Shift）算法基于核密度估计技术，是一种寻找概率密度函数极值点的算法。它在聚类分析、图像分割、视觉目标跟踪中都有应用。在用于聚类任务时，它寻找概率密度函数的极大值点，即样本分布最密集的位置，以此得到簇。

这里写图片描述

对于某些应用，我们不知道概率密度函数的具体形式，但是有一组采样自此分布的离散样本数据，核密度估计可以根据这些样本值估计概率密度函数，均值漂移算法可以找到概率密度函数的极大值点。和之前介绍的数值优化算法一样，这也是一种迭代算法，从一个初始点开始，按照某种规则移动到下一点，直到到达极值点处。找到所有极值点，就找到了所有的簇。

基于图的聚类

基于图的算法把样本数据看作图的顶点，根据数据点之间的聚类构造边，形成带权重的图。通过图的切割实现聚类，即将图切分成多个子图，这些子图就是对应的簇。这类算法的典型代表是谱聚类算法。谱聚类算法首先构造样本集的邻接图，得到图的拉普拉斯矩阵。接下来对矩阵进行特征值分解，通过对特征向量进行处理构造出簇。

算法首先根据样本集构造出带权重的图G，聚类算法的目标是将其切割成多个子图。假设图的顶点集合为V，边的集合为E。聚类算法将顶点集合切分成k个子集，它们的并集是整个顶点集：

V_{1} \cup V_{2} \dots \cup V_{k} = V

$V_1 \cup V_2 \cdots \cup V_k=V$

任意两个子集之间的交集为空：

V_{i} \cap V_{j} = ϕ, \forall i, j, i \neq j

$V_i \cap V_j=\phi,\forall i,j, i\neq j$
对于任意两个子图，其顶点集合为A和B，它们之间的切图权重定义为连接两个子图节点的所有边的权重之和：

w (A, B) = \sum_{i \in A, j \in B} w_{i j}

$w(A,B)=\sum_{i\in A,j\in B}w_{ij}$
这可以看做两个子图之间的关联程度，如果两个子图之间没有边连接，则这个值为0。从另一个角度看，这是对图进行切割时去掉的边的权重之和。对图顶点的子集

V_{1}, \dots, V_{k}

$V_1 ,\cdots,V_k$ ，定义这种分割的代价为：

c u t (V_{1}, V_{2}, \dots, V_{k}) = \frac{1}{2} \sum_{i = 1}^{k} W (V_{i}, \bar{V_{i}})

$cut(V_1,V_2,\cdots,V_k)=\frac{1}{2}\sum_{i=1}^{k}W(V_i,\overline{V_i})$

其中 $\overline{V_i}$ 为 $V_i$ 的补集，这个值与聚类的目标一致，即每个子图内部的连接很强，而子图之间的连接很弱。下图为图切割示意图，将一个图切分成3个子图，分别为红色，黄色和蓝色，虚线边为切掉的边，它们的权重之和即为切图成本：
这里写图片描述

但直接通过最小化这个值完成聚类还有问题，它没有考虑子图规模对代价函数的影响，使得这个指标最小的切分方案不一定就是最优切割。

解决这个问题的方法是对代价函数进行归一化。第一种方法是用图的顶点数进行归一化，由此得到优化的目标为：

c u t (V_{1}, V_{2}, \dots, V_{k}) = \frac{1}{2} \sum_{i = 1}^{n} \frac{W (V_{i}, \bar{V_{i}})}{| V_{i} |}

$cut(V_1,V_2,\cdots,V_k)=\frac{1}{2}\sum_{i=1}^{n}\frac{W(V_i,\overline{V_i})}{|V_i|}$

其中 $|V_i|$ 为子集的元素数量。最后归结为求解矩阵的特征值和特征向量问题。另外一种方案也采用了归一化项：

c u t (V_{1}, V_{2}, \dots, V_{k}) = \frac{1}{2} \sum_{i = 1}^{n} \frac{W (V_{i}, \bar{V_{i}})}{v o l (V_{i})}

$cut(V_1,V_2,\cdots,V_k)=\frac{1}{2}\sum_{i=1}^{n}\frac{W(V_i,\overline{V_i})}{vol(V_i)}$

其中vol是图中所有顶点的加权度之和：

v o l (V) = \sum_{i \in V} d_{i}

$vol(V)=\sum_{i\in V}d_i$

求解上面的最优化问题，即可得到图的最佳切分方案，也就是我们想要的聚类结果。已经证明，求上面的最优化问题的解等价于求解图的归一化的拉普拉斯矩阵的特征值问题。