模式识别（五）聚类的几种算法

2.4.1 聚类的技术方案
聚类的算法归纳起来大概有三类：
a).按最小距离原则简单聚类方法；
b).按最小距离原则进行两类合并的方法；
c).依据准则函数动态聚类方法；

（1）按最小记录原则简单聚类方法：
针对具体问题确定相似性阀值，将模式到各聚类中心间的距离与阀值比较，当该值大于阀值时该模式就作为另一类的类心，小于阀值时就按最小距离将其划分到某一类中。
特点：这类算法运行中模式的类别以及类的中心一旦确定就不会改变。
在这里插入图片描述
总结该算法：突出优点是算法简单。但聚类过程中，类的中心一旦确定将不会改变，模式一旦确定就不再改变。该算法在结果很大程度上依赖于距离门限T的选取及模式参与分类的次序。如果能有先验知识指导门限T的选取，通常可以较合理的效果。也可以考虑设置不同的T和选择不同的次序，最后选择较好的结果进行比较。
（2）按最小距离原则进行两类合并的方法（谱系聚类法）：
首先视各个模式自成一类，然后将距离最小的两类合并成一类，不断重复这个过程，直到成为两类为止。
特点：这类算法中，类心不断修正，但模式类别一旦指定后就不在改变，就是模式一旦划为一类就不在被划开，这类算法也称谱系聚类法。
在这里插入图片描述
（3）依据准则函数动态聚类法：
设定一些分类的控制参数，定义一个能表征聚类结果优劣的准则函数，聚类过程就是使准则函数取极值的优化过程。
特点：该算法在运行过程中，类心不断修正，各模式的类别指定也不断更正。这类算法有——C均值法、ISODATA法等。
动态聚类的基本步骤：
1.建立初始聚类中心，进行初始聚类；
2.计算模式和类的距离，调整模式的类别；
3.计算各聚类的参数，删除、合并或分裂一些聚类；
4.从初始聚类开始，运用迭代算法动态地改变模式的类别和聚类的中心使准则函数取得极值或设定的参数达到设计要求时停止。
这里以C-均值法为例说明：
1.条件及约定:
设待分类的模式特征矢量集为：{x1,x2,xn}类的数目C是事先确定的。
2.该方法取定C个类别和选取C个初始聚类中心，按最小距离原则将各模式分配到C类中的某一类，之后不断地计算类心和调整各模式的类别，最终使各模式到其判属类别中心的距离平方之和最小。
举例：
已知有20个样本，每个样本有2个特征，数据分布如下图，使用C-均值法实现样本分类（C=2）;
在这里插入图片描述
第一步：令C=2，选初始聚类中心为:

模式识别（五）聚类的几种算法

猜你喜欢