【论文笔记】Evaluation of Hierarchical Clustering Algorithms for Document Datasets

导读

这篇文章感觉挺有意思,2002年CIKM的文章。
在我的todo list里面虽然已经一个月了,但是之前主要是奔着他的 hierarchy evaluation来的,现在看看其实他主要的contribution是大量的实验+自己提出的constrained agglomerative algorithms
(话说做hierarchy clustering evaluation的人真少啊,我找了非常久,来来去去就那么几篇好点的文章。自己思考做这个方向的人少是因为:

  • 1 聚类算法本身无监督,特别难以定论在所有的情况下都是这个算法好。
  • 2 很少有人本身就是做聚类算法改进的,毕竟要实验需要在不同的人物上做大量的实验。图片聚类、文本聚类、人物画像 聚类等等。数据集大小又因人而异。
  • 3 大部分都聚类也不是很需要层次聚类(你看我上面举的三个例子,跟层级没有一定的联系吧…

这三个理由互成因果。没什么需求导致小方向,小方向又导致没什么新鲜血液来研究。

doc-level聚类这个任务我之前没有做过,但是光从文档这个级别上来思考,可操作的特征非常多,会比我们自己做的任务要简单。毕竟我们是sentence level的。

Abstract

主要说在文档分类这个任务下
比较了大量的 agglomerative 和 partitional 两类hierarchy聚类算法
然后partitional算法总是要好一些,但是自己提出的算法比这两者效果都好。

Introduction

  • 1 先出现的agglo类别的hierarchy clustering,再是partitional
  • 2 partitional算力要求低,但是聚类质量上要比aggo差一些(为什么?
  • 3 比较了多个split criterion和 merge scheme
  • 4 提出新的算法,先用partitional算法到中间低聚类层级,然后对中间层级的每一个类进行aggo聚类,把子树接上去,佛了。

Clustering Criterion Function

一共有4种类型的聚类优化

  • 1 external,着重于强调每个cluster的区别
  • 2 internal,着重于cluster内部instance的优化
  • 3 graph-based,把所有的instance分成graph再进行操作
  • 4 hybrid,上述的某些混合。

震惊!这文章比了15个算法分别在12个数据集上的效果

5.2 Experimental Methodology and Metrics

重点讲讲这个吧,我就想看个这个。

1 给定一个 L r L_r 类别下的instance,size为 n r n_r | 以及一个特定的聚类 S i S_i ,size为 n i n_i

注意这里没有说明谁大谁小哦,聚类的结果可以远大于 L r L_r 的哦
别问这里为什么有 L r L_r ,不然怎么evaluation?聚类出来不能自己肉眼看吧

2 假定在这个聚类 S i S_i 中存在 n r i n_{ri} 个instance属于类别 L r L_r
3 FScore measure:

F ( L r , S i ) = 2 R ( L r , S i ) P ( L r , S i ) R ( L r , S i ) + P ( L r , S i ) F(L_r, S_i) = \frac {2*R(L_r, S_i)*P(L_r, S_i)} {R(L_r, S_i)+P(L_r, S_i)}
其中的P, R自然是Precision和Recall
度量的是 n r i n_{ri} n r n_r

4 每一个类别,都要对所有的聚类进行这样的度量。选取其中最大的F值表示,所有聚类结果 T T 中,最接近预定义的类别 L r L_r 的是某个 S i S_i

i.e.
F ( L r ) = max S i T ( F ( L r , S i ) ) F(L_r) = \max\limits_{S_i \in T}(F(L_r, S_i))

5 最终再normalize出一个整体的overall的F Score,因为不同 L L 下的instance数量不同

F S c o r e = r = 1 c n r n F ( L r ) FScore = \sum\limits_{r=1}^{c} \frac{n_r}{n}F(L_r)

这也就是当前聚类算法下,在当前数据集中的最终FScore

结语

这个Evaluation非常的好,论文工作量也非常大,创新点也有。700+引用实至名归。

这个Cluster的FScore是在1999年的SIGKDD上Fast and effective text mining using linear-time document clustering提出来的。有必要稍微再去看一下

不过让我觉得比较可惜的是,虽然这篇说了是一个hierarchy clustering的evaluation,但是只是算法换成了层级聚类,evaluation的标准还是普通聚类的都用的一个标准。这样并没有度量hierarchy这个树形结构是否符合标准

发布了1164 篇原创文章 · 获赞 1245 · 访问量 970万+

猜你喜欢

转载自blog.csdn.net/weixin_40400177/article/details/104500841