文本关键词提取方法综述

一、提取过程

总共分两步，第一步对文章分词、去停用词、pos tag 之后，得到候选关键词列表L；第二步，使用关键词提取算法提取关键词。

最后得到的关键词应满足以下三个条件：

1·、Understandable. The keyphrases are understandable to people. This indicates the extracted keyphrases should be grammatical. For example, “machine learning” is a grammatical phrase, but “machine learned” is not.

2、Relevant. The keyphrases are semantically relevant with the document theme. For example, for a document about “machine learning”, we want the keyphrases all about this theme.

3、Good coverage. The keyphrases should cover the whole document well. Suppose we have a document describing “Beijing” from various aspects of “location”, “atmosphere” and “culture”, the extracted keyphrases should cover all the three aspects,instead of just a partial subset of them。

二、关键词提取算法综述

1、TF-IDF

计算L中每个单词的词频TF和逆文档频率IDF,二者的乘积作为这个单词的得分，得分=重要性。

在本质上IDF是一种试图抑制噪音的加权，并且单纯地认为文本频率小的单词就越重要，文本频率大的单词就越无用。这对于大部分文本信息，并不是完全正确的。IDF的简单结构并不能使提取的关键词，十分有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能。尤其是在同类语料库中，这一方法有很大弊端，往往一些同类文本的关键词被掩盖。例如：语料库D中教育类文章偏多，而文本j是一篇属于教育类的文章，那么教育类相关的词语的IDF值将会偏小，使提取文本关键词的召回率更低。

TF-IDF的优点是实现简单，相对容易理解。但是，TFIDF算法提取关键词的缺点也很明显，严重依赖语料库，需要选取质量较高且和所处理文本相符的语料库进行训练。另外，对于IDF来说，它本身是一种试图抑制噪声的加权，本身倾向于文本中频率小的词，这使得TF-IDF算法的精度不高。TF-IDF算法还有一个缺点就是不能反应词的位置信息，在对关键词进行提取的时候，词的位置信息，例如文本的标题、文本的首句和尾句等含有较重要的信息，应该赋予较高的权重。

2、TextRank

候选词的重要性根据它和其他候选词的关系来确定。

1、考虑了单词之间的相互关系。同样没有考虑单词的语义信息。

2、词语和词语之间的连接仅仅以单个独的句子内使用滑动窗口来确定，缺少对上下文的整体考虑。

3、词语和词语之间连接的权重都赋予相同的默认值，不能区分连接关系的强弱。

3、基于语义的关键词提取（SKE）

对于文本分词后的每个单词，求其关键度得分。

得分由三部分组成：1、居间度密度Vd；2、词性pos(名词、动词…..), 位置loc(标题，段首，断尾），词长(len(word))；3、tf-idf值；对1、2、3加权得到最后的词语关键度得分。居间度密度为这篇论文提出的特征。

4、word2vec + Kmeans

候选词对应的词向量，对词向量进行聚类，距离聚类中心点最近的向量为关键词。

5、词语位置加权的TextRank

应用于关键词抽取时，构建的是一种无向无权图，每一个结点被赋予一个初始值１，然后迭代计算权重。直观看来，可以根据某种策略对部分重要的结点赋予较高的初值，以改善排序结果，但这种方法无法奏效，实际上，排序的结果对应转移矩阵的特征向量，和结点赋予的初值无关，而是由连接结点的边的权重所决定。笔者将基于候选关键词图，讨论如何引入边的权重以改进排序效果，实现关键词抽取。

6、基于LDA的关键词提取

LDA的训练，可以的得到一篇文章的主题分布p(z|di)，和文章中词的主题分布p(z|wi)，可以通过余弦相似度或者KL散度来计算这两个分布的相似性。如果文章的某一主题z的概率很大，而该文章中某个词对于该主题z也拥有更大的概率，那么该词就会有非常大的概率成为关键词

7、topical textrank TPR = LDA + TextRank

TPR的思想是每个主题单独运行各自的带偏好的TextRank，每个主题的TextRank都会偏好与主题有较大相关度的词，这个偏好就是设置随机跳转的概率来得到的。