29.聚类---性能度量

一、性能度量

聚类的性能度量也称作聚类的有效性指标。

聚类的性能度量分两类:

  1. 聚类结果与某个参考模型进行比较,称作外部指标
  2. 直接考察聚类结果而不利用任何参考模型,称作内部指标

1. 外部指标

对于数据集$D={x_1,x_2,...,x_N}$,假定通过聚类给出的簇划分为$C={C_1,C_2,...,C_K}$,参考模型给出的簇划分为$C*=\{C_1^*,C_2^*,...,C_K^*\}$,其中$K$和$K'$不一定相等。

令$\lambda,\lambda^*$分别表示$C,C^*$的簇标记向量。定义:

其中|·|表示集合的元素的个数,各集合的意义为:

  1. $SS$:包含了同时隶属于$C,C^*$的样本对;
  2. $SD$:包含了隶属于$C$,但是不隶属于$C^*$的样本对;
  3. $DS$:包含了不隶属于$C$,但是隶属于$C^*$的样本对;
  4. $DD$:包含了同时不隶属于$C,C^*$的样本对;

由于每个样本对$(x_i,x_j)$,$i<j$仅能出现在一个集合中,因此有

$a+b+c+d=\frac{N(N-1)}{2}$

下面性能度量的结果都在[0,1]之间,这些值越大,说明聚类的性能越好。

1.1 Jaccard系数

$JC=\frac{a}{a+b+c}$

它刻画了所有的同类的样本对(要么在C中属于同类,要么在C*中属于同类)中,同时

1.2 FM指数

1.3 Rand指数

1.4 ARI指数

2. 内部指标

2.1 DB指数

2.2 Dunn指数

3. 距离度量

猜你喜欢

转载自www.cnblogs.com/nxf-rabbit75/p/11912668.html
今日推荐