一、性能度量
聚类的性能度量也称作聚类的有效性指标。
聚类的性能度量分两类:
- 聚类结果与某个参考模型进行比较,称作外部指标;
- 直接考察聚类结果而不利用任何参考模型,称作内部指标。
1. 外部指标
对于数据集$D={x_1,x_2,...,x_N}$,假定通过聚类给出的簇划分为$C={C_1,C_2,...,C_K}$,参考模型给出的簇划分为$C*=\{C_1^*,C_2^*,...,C_K^*\}$,其中$K$和$K'$不一定相等。
令$\lambda,\lambda^*$分别表示$C,C^*$的簇标记向量。定义:
其中|·|表示集合的元素的个数,各集合的意义为:
- $SS$:包含了同时隶属于$C,C^*$的样本对;
- $SD$:包含了隶属于$C$,但是不隶属于$C^*$的样本对;
- $DS$:包含了不隶属于$C$,但是隶属于$C^*$的样本对;
- $DD$:包含了同时不隶属于$C,C^*$的样本对;
由于每个样本对$(x_i,x_j)$,$i<j$仅能出现在一个集合中,因此有
$a+b+c+d=\frac{N(N-1)}{2}$
下面性能度量的结果都在[0,1]之间,这些值越大,说明聚类的性能越好。
1.1 Jaccard系数
$JC=\frac{a}{a+b+c}$
它刻画了所有的同类的样本对(要么在C中属于同类,要么在C*中属于同类)中,同时