文本聚类技术综述

摘要

无监督学习文本聚类技术是自然语言处理领域的一个重要分支,在实践中被广泛应用。为使该技术对文本聚类技术产生引领作用,首先对文本聚类流程、聚类评价指标及数据集进行详细阐述,然后对文本聚类算法进行分类说明和比较,最后对文本聚类技术进行总结与展望。通过对当前文本聚类技术的归纳总结,融合深度学习方法后的最新研究成果,以期为深入研究该领域提供参考与借鉴。

0 引言

目前,Twitter、雅虎、新浪微博、腾讯新闻、学习强国等互联网应用广泛普及,文本数量激增,发掘文本中有价值的信息对研究用户喜好具有重要意义。处理文本常用的技术包括自动化文本分类和聚类。其中,文本分类属于有监督学习方法,需要对文本进行标记,同时要对语料库模型进行训练;文本聚类(Text ClusteringTC)则属于无监督学习方法,无需标记文本,只需将

猜你喜欢

转载自blog.csdn.net/weixin_70923796/article/details/129256085