聚类(clustering)
9.1 聚类任务
聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。通过这样的划分,每个簇可能对应于一些潜在的概念或类别。聚类过程仅能自动形成簇结构,簇所对应的概念需要人进一步去解释。
假定样本集包含m个无标记样本,每个样本是一个n维特征向量,则聚类算法将样本集D划分为k个不相交的簇,其中,且,用表示样本的簇标记,即。聚类的结果可用包含m个元素的簇标记向量表示。
9.2 性能度量
聚类性能度量又称聚类有效性指标(validity index)。
聚类的目标:簇内相似度(intra-cluster)高且簇间相似度(inter-cluster similarity)低。
聚类性能度量大概有两大类:一类是将聚类结果与某个参考模型进行比较,称为外部指标(external index);另一类是直接考察聚类结果而不利用任何参考模型,称为内部指标(internal-index)。
对数据集,假定通过聚类给出的簇划分为,参考模型给出的簇划分为。
9.3 距离计算
9.4 原型聚类
基于原型的聚类(prototype-based clustering),此类算法假设聚类结构能够通过一组原型刻画,在现实聚类任务中极为常用。
k-均值算法
学习向量量化
高斯混合聚类
9.5 密度聚类
基于密度的聚类(density-based clustering),此类算法假设聚类结构能够通过样本分布的紧密程度确定。
9.6 层次聚类
层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形成树形的积累结构。
AGNES算法