【论文笔记】Evaluation of Hierarchical Clustering Algorithms for Document Datasets

导读

这篇文章感觉挺有意思，2002年CIKM的文章。
在我的todo list里面虽然已经一个月了，但是之前主要是奔着他的 hierarchy evaluation来的，现在看看其实他主要的contribution是大量的实验+自己提出的constrained agglomerative algorithms
（话说做hierarchy clustering evaluation的人真少啊，我找了非常久，来来去去就那么几篇好点的文章。自己思考做这个方向的人少是因为:

1 聚类算法本身无监督，特别难以定论在所有的情况下都是这个算法好。

2 很少有人本身就是做聚类算法改进的，毕竟要实验需要在不同的人物上做大量的实验。图片聚类、文本聚类、人物画像聚类等等。数据集大小又因人而异。

3 大部分都聚类也不是很需要层次聚类（你看我上面举的三个例子，跟层级没有一定的联系吧…

这三个理由互成因果。没什么需求导致小方向，小方向又导致没什么新鲜血液来研究。

doc-level聚类这个任务我之前没有做过，但是光从文档这个级别上来思考，可操作的特征非常多，会比我们自己做的任务要简单。毕竟我们是sentence level的。

Abstract

主要说在文档分类这个任务下
比较了大量的 agglomerative 和 partitional 两类hierarchy聚类算法
然后partitional算法总是要好一些，但是自己提出的算法比这两者效果都好。

Introduction

1 先出现的agglo类别的hierarchy clustering，再是partitional

2 partitional算力要求低，但是聚类质量上要比aggo差一些（为什么?

3 比较了多个split criterion和 merge scheme

4 提出新的算法，先用partitional算法到中间低聚类层级，然后对中间层级的每一个类进行aggo聚类，把子树接上去，佛了。

Clustering Criterion Function

一共有4种类型的聚类优化

1 external，着重于强调每个cluster的区别

2 internal，着重于cluster内部instance的优化

3 graph-based，把所有的instance分成graph再进行操作

4 hybrid，上述的某些混合。

震惊！这文章比了15个算法分别在12个数据集上的效果

5.2 Experimental Methodology and Metrics

重点讲讲这个吧，我就想看个这个。

1 给定一个 $L_r$ 类别下的instance,size为 $n_r$ | 以及一个特定的聚类 $S_i$ ，size为 $n_i$

注意这里没有说明谁大谁小哦，聚类的结果可以远大于 $L_r$ 的哦
别问这里为什么有 $L_r$ ，不然怎么evaluation？聚类出来不能自己肉眼看吧

2 假定在这个聚类 $S_i$ 中存在 $n_{ri}$ 个instance属于类别 $L_r$

3 FScore measure:

$F(L_r, S_i) = \frac {2*R(L_r, S_i)*P(L_r, S_i)} {R(L_r, S_i)+P(L_r, S_i)}$
其中的P, R自然是Precision和Recall
度量的是 $n_{ri}$ 和 $n_r$

4 每一个类别，都要对所有的聚类进行这样的度量。选取其中最大的F值表示，所有聚类结果 $T$ 中，最接近预定义的类别 $L_r$ 的是某个 $S_i$ 。

i.e.
$F(L_r) = \max\limits_{S_i \in T}(F(L_r, S_i))$

5 最终再normalize出一个整体的overall的F Score，因为不同 $L$ 下的instance数量不同

$FScore = \sum\limits_{r=1}^{c} \frac{n_r}{n}F(L_r)$

这也就是当前聚类算法下，在当前数据集中的最终FScore

结语

这个Evaluation非常的好，论文工作量也非常大，创新点也有。700+引用实至名归。

这个Cluster的FScore是在1999年的SIGKDD上Fast and effective text mining using linear-time document clustering提出来的。有必要稍微再去看一下

不过让我觉得比较可惜的是，虽然这篇说了是一个hierarchy clustering的evaluation，但是只是算法换成了层级聚类，evaluation的标准还是普通聚类的都用的一个标准。这样并没有度量hierarchy这个树形结构是否符合标准

DrogoZhang

发布了1164 篇原创文章 · 获赞 1245 · 访问量 970万+

私信关注