基于知网语义相似度的中文文本分类研究 论文笔记

论文名和编号

摘要/引言

相关背景和工作

论文方法/模型

实验(数据集)及

分析(一些具体数据)

未来工作/不足

是否有源码

问题

原因

解决思路

优势

基于知网语义相似度的中文文本分类研究

1.传统的文本处理大部分是根据词频和逆向文档频率将文本表示成向量空间模型,实践证明这种模型确实简单高效并且得到了广泛应用,但这种模型表示缺乏对语义的理解,忽略了词与词之间的语义信息丢失了很多重要的语义信息。

1.许多学者虽然将知网引入到向量空间模型中,使用知网的知识库计算文本中词语的相似度,但有着各种各样的缺漏,如:没有考虑词语在文本中所占的比重,没有全面考虑义原关系,没有进行词义的消歧等。

1.利用TF-IDF算法计算特征词项权值,并将基于知网的语义相似度计算引入中文文本分类中,运用基于词语消歧的知网语义相似度计算方法,提出加权的文本相似度计算方法。全面综合考虑了特征词项在文本中所占的比重,对文本相似度进行加权处理,提出新的文本相似度计算公式,以提升文本分类的精度。

1.该方法较传统的文本相似度计算方法在文本分类性能上有所提高。

1.知网是我国著名机器翻译专家董振东和董强历经10多年创建的一个知识系统。它以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念所具有的属性之间的关系为基本内容的常识知识库。其由两个主要概念:“概念”和“义原”。“概念”是对词汇语义的一种描述,每个词可以表达为几个概念。而而“概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的“词汇”叫做“义原”。“义原”是用于描述一个“概念”的最小意义单位。根据属性,“义原”被分为三组:“基本义原”用于描述单个概念的语义特征;“语法义原”描述词语语法特征;“关系义原”描述概念和概念之间的关系。知网描述了义原之间的8种关系,其中最重要的是上下位关系,基本义原通过上下位关系组织成一个树状义原层次体系,这是语义相似度计算的基础。

1.消歧:对待分析的文本进行分词和词性标注,去掉句子中的虚词、保留实词,保留词性为名词、动词、形容词等。对于存在歧义的词语,如果词语在该标注的词性下只有一个概念,则直接消歧。如果有多个概念解释,则根据句法分析得到与该词语所有关联的实词。通过依存句法分析提取出歧义词所在句子中预期相关联的实词。将这些实词的所有义项(概念)分解成义原。再对歧义词的义项作同样处理,定义每个义原的初始权重为1.判断歧义词的每个义原与关联词语的某个义原是否存在知网规定的8种义原关系或为相同义原。如果存在关系,则歧义词相应的义原权重加1,最后计算该医院所在义项的权重。

2. 提出一种加权的文本相似度计算方 法。在基于词语消歧、知网语义相似度计算的基础上, 定义一个相似度阈值, 大于这个阈值即认为这两个词 语具有相似性。如果两个文本所具有的相似词语越多, 而且相似词语在文本中的权值越高, 则这两个文本的 相似程度就越高。

1.实验数据采用从新浪、搜狐网站上爬取的 6 000 篇新闻文稿, 分为财经、体育、汽车、娱乐、科技、教育 6 个类别(其中财经、体育、汽车来自搜狐网站, 娱 乐、科技、教育来自新浪网站), 每个类别 1 000 篇文 本, 从 6 000 篇文本中每个类别选取 800 篇文本共计 4 800 篇作为训练集, 其余的 1 200 篇文本(每个类别 200 篇)作为测试集。选用中国科学院计算技术研究所 的 ICTCLAS[14]进行分词, 选取哈尔滨工业大学中文 停用词表[15], 包含767个中文停用词, 采用KNN分类 器, 经过反复测验, K取15时实验效果最佳, 使用CHI 特征选择方法进行特征降维, 特征项权值计算采用 TF-IDF 算法, 词汇相似度阈值定为 0.8。对比实验中, 第一组实验采用传统的文本相似度 计算方法即不考虑语义的文本相似度计算公式进行文 本分类; 第二组实验采用本文所述的基于知网语义相 似度加权的文本相似度计算方法。

2.结果分析:测试集和训练集的比例是1:4, F1值大多处 于 80%左右, 而个别的像汽车、体育等类别其专业术 语较多, 具有较高的区分度, F1 值达到 90%以上。在 表 2 中, F1 值无论是在各个类别上还是在平均值上都 有所提高。这主要是因为在计算文本相似度时充分考 虑了词与词之间的语义关系, 从而提高了文本相似度 计算的准确性, 体现在最终分类的结果上就表现为分 类精度的提高。对于传统分类方法 分类精度相对较低的类别, 例如财经、娱乐、科技、 教育等类别, 使用本文提出的方法其分类精度能得到 改善, 而像体育、汽车等类别, 其分类精度的改善虽不 是很明显但亦有所提升, 这主要是因为其使用传统方 法的分类精度已经很高, 达到 90%以上。

1.该算法的时间复杂度较高,文本分类的处理速度有待提高。

无 

猜你喜欢

转载自www.cnblogs.com/wzc440302/p/10467023.html