基于无监督学习的可持续发展目标数据分类

摘要

【目的】联合国可持续发展目标(SDGs)是联合国于2015年提出的指导全世界在2015-2030年间发展方向的目标,涵括了社会、经济、环境三个方向上的海量数据。针对SDGs标注数据少、数据量大、难以查找利用的特点,本文旨在无监督地对SDGs数据进行分类。【方法】本文首先利用结合textrank和相对词频的关键词提取算法从SDGs元数据集中提取类别描述信息,再利用基于词向量的无监督文本分类算法对SDGs数据进行了分类。【结果】在联合国官方提供的SDGs数据库上的分类实验表明,本文分类模型的F1-micro score达到了0.813,对比SeedBTM提高了33%,相较于不擅长短文本分类的STM及DescLDA上更是分别提升了39%和 52%,对比使用TFIDF和textrank所提取关键词的分类效果分别提升了7%和25%。【结论】本文所提基于textrank和相对词频的关键词提取方法具有较好地可用性,且相较于目前主流的主题模型算法,本文所提基于词向量的无监督分类方法能够取得更好的效果。

关键词: 可持续发展目标; 无监督学习; 提取; 文本分类

引言

联合国可持续发展目标(Sustainable Develop-ment Goals,SDGs)

猜你喜欢

转载自blog.csdn.net/weixin_70923796/article/details/129262282