文本关键词提取方法综述

一、提取过程

总共分两步,第一步对文章分词、去停用词、pos tag 之后,得到候选关键词列表L;第二步,使用关键词提取算法提取关键词。

最后得到的关键词应满足以下三个条件:

1·、Understandable. The keyphrases are understandable to people. This indicates the extracted keyphrases should be grammatical. For example, “machine learning” is a grammatical phrase, but “machine learned” is not.

2、Relevant. The keyphrases are semantically relevant with the document theme. For example, for a document about “machine learning”, we want the keyphrases all about this theme.

3、Good coverage. The keyphrases should cover the whole document well. Suppose we have a document describing “Beijing” from various aspects of “location”, “atmosphere” and “culture”, the extracted keyphrases should cover all the three aspects,instead of just a partial subset of them。
 

二、关键词提取算法综述

1、TF-IDF

计算L中每个单词的词频TF和逆文档频率IDF,二者的乘积作为这个单词的得分,得分=重要性。

          在本质上IDF是一种试图抑制噪音的加权,并且单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用。这对于大部分文本信息,并不是完全正确的。IDF的简单结构并不能使提取的关键词,十分有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能。尤其是在同类语料库中,这一方法有很大弊端,往往一些同类文本的关键词被掩盖。例如:语料库D中教育类文章偏多,而文本j是一篇属于教育类的文章,那么教育类相关的词语的IDF值将会偏小,使提取文本关键词的召回率更低。

         TF-IDF的优点是实现简单,相对容易理解。但是,TFIDF算法提取关键词的缺点也很明显,严重依赖语料库,需要选取质量较高且和所处理文本相符的语料库进行训练。另外,对于IDF来说,它本身是一种试图抑制噪声的加权,本身倾向于文本中频率小的词,这使得TF-IDF算法的精度不高。TF-IDF算法还有一个缺点就是不能反应词的位置信息,在对关键词进行提取的时候,词的位置信息,例如文本的标题、文本的首句和尾句等含有较重要的信息,应该赋予较高的权重。

2、TextRank

候选词的重要性根据它和其他候选词的关系来确定。

1  考虑了单词之间的相互关系。同样没有考虑单词的语义信息。

2词语和词语之间的连接仅仅以单个独的句子内使用滑动窗口来确定, 缺少对上下文的整体考虑。

3、词语和词语之间连接的权重都赋予相同的默认值,不能区分连接关系的强弱。

3、基于语义的关键词提取(SKE)

对于文本分词后的每个单词,求其关键度得分。

得分由三部分组成:1、居间度密度Vd2、词性pos(名词、动词…..), 位置loc(标题,段首,断尾),词长(len(word));3tf-idf;对123加权得到最后的词语关键度得分。居间度密度为这篇论文提出的特征。

4、word2vec + Kmeans

候选词对应的词向量,对词向量进行聚类,距离聚类中心点最近的向量为关键词。

5、词语位置加权的TextRank

应用于关键词抽取时,构建的是一种无向无权图,每一个结点被赋予一个初始值 1,然后迭代计算权重。 直观看来,可以根据某种策略对部分重要的结点赋予较高的初值,以改善排序结果,但这种方法无法奏效,实际上,排序的结果对应转移矩阵的特征向量,和结点赋予的初值无关,而是由连接结点的边的权重所决定。笔者将基于候选关键词图,讨论如何引入边的权重以改进排序效果,实现关键词抽取。

6、基于LDA的关键词提取

LDA的训练,可以的得到一篇文章的主题分布p(z|di),和文章中词的主题分布p(z|wi),可以通过余弦相似度或者KL散度来计算这两个分布的相似性。如果文章的某一主题z的概率很大,而该文章中某个词对于该主题z也拥有更大的概率,那么该词就会有非常大的概率成为关键词

7、topical textrank  TPR = LDA + TextRank

TPR的思想是每个主题单独运行各自的带偏好的TextRank,每个主题的TextRank都会偏好与主题有较大相关度的词,这个偏好就是设置随机跳转的概率来得到的。

猜你喜欢

转载自blog.csdn.net/qq_34333481/article/details/84616759