一、聚类的基本概念

聚类的核心概念是相似度或距离。

当 $p = 2$ 时称为欧氏距离
当 $p = 1$ 时称为曼哈顿距离
当 $p=\infty$ 时称为切比雪夫距离（取坐标数值差的绝对值的最大值）

马哈拉诺比斯距离 $d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac12}$
其中 $样本集合为：X=[x_{ij}]_{m*n},S为协方差矩阵\\x_i=(x_{1i},x_{2i},\cdots,x_{mi})^T,x_j=(x_{1j},x_{2j},\cdots,x_{mj})^T$
当样本数据哥哥分量互相独立且各个分量的方差为1时，马氏距离就是欧式距离，所以马氏距离时欧氏距离的推广。
样本系数 $r_{ij}=\frac{\sum_{k=1}^m(x_{ki}-\bar x_i)(x_{kj}-\bar x_j)}{\Big[\sum_{k=1}^m(x_{ki}-\bar x_i)^2\sum_{k=1}^m(x_{kj}-\bar x_j)^2\Big]^{\frac12}}$
夹角余弦 $s_{ij}=\frac{\sum_{k=1}^mx_{ki}x_{kj}}{\Big[\sum_{k=1}^mx_{ki}^2\sum_{k=1}^mx_{kj}^2\Big]^{\frac12}}$
簇或类
类与类之间的距离

二、层次聚类

聚合（agglomerative）或自下而上（bottom-up）聚类
聚合聚类开始将每个样本各自分到一个类；之后将相距最近的两类合井，建立一个新的类，重复此操作直到满足停止条件；得到层次化的类别。
分裂（divisive）或自上而下（top-down）聚类
分裂聚类开始将所有样本分到一个类：之后将已有类中相距最远的样本分到两个新的类，重复此操作直到满足停止条件；得到层次化的类别。

聚合聚类三要素：

首先选择k个类的中心，将样本逐个指派到与其最近的中心的类中，得到一个聚类结果；然后更新每个类的样本的均值，作为类的新的中心；重复以上步骤，直到收敛为止。

特点：