关键词提取技术

python自然语言处理实战
第五章关键词提取算法
中管方法分析：
1.有监督方法及语料库技术
将关键词抽取任务转化为分类问题或标注问题。
有监督机器学习的分类方法主要借助决策树、朴素贝叶斯、支持向量机、最大熵模型、隐马尔可夫模型、条件随机场等。

主要有两个研究方向:
一个方向是将关键词抽取看做是二分类任务；
另一个方向是基于语言模型。
优势：通过大量文本训练得到，相比于无监督的抽取方法得到的规则更加科学、有效，抽取的关键词的质量有大幅度的提高。

缺陷：
(1)需要大量文本训练，大规模人工标注的训练预料难以获取；
(2)抽取效果受训练语料的规模和领域性影响较大，只要训练集不同，构造的分类模型也会有差异，最终影响模型的准确性。
(3)训练语料的质量往往会直接影响到模型的准确性，从而影响着关键词抽取的结果。已标注关键词的文本有限，
训练集需要自己去标注，人工标注带有一定的主观因素，会造成实验数据具有不真实性。

如何获取一个高质量的训练集合是此类算法的瓶颈问题。

所以有监督的自动关键词抽取算法应用不是很广泛。

大型语料库逐渐转变为大批小型的针对特定应用的语料库构建。

2.半监督方法和无监督方法
不需要训练语料，不需要人工参与，利用抽取系统完成关键词抽取。

2.1 基于统计的方法：仅仅是文档-词维度
主流的简单统计方法是TFIDF及其改进方法。
TFIDF是衡量一个词对一篇文档的区分程度。

利用文档中词语的统计信息抽取文档的关键词。
优点：简单，易于实现，不需要训练数据，也不需要构建外部知识库，泛化性强。

考虑词的位置、词性和关联信息特征。
比如在文本中名词作为一种定义现实实体的词，带有更多的关键信息。
再比如在某些场景中文本的起始段落和结尾段落比其他部分更重要。

缺陷：
单纯以词频衡量一个词的重要性不够全面，有时重要的词可能出现的次数不多。
而且这种算法无法体现词的位置、词性和关联信息等特征，更无法反映词汇的语义信息。

扫描二维码关注公众号，回复： 9132663 查看本文章

****************************************************************
IDF本质上是一种试图抑制噪音的加权。
单纯的认为文档频率小的词越重要，文档频率大的单词就越无用。
这样导致的问题是一些不能代表文本的低频次IDF值很高；
有些能够很好代表文本的高频词IDF值却很高。
主要原因是TFIDF没有考虑特征项在文档集合类间和类内的分布情况。

没有考虑语义。
*****************************************************************

2.2 基于主题的方法：提升到文档-主题-词的维度
主要思想是：文档是若干主题的分布；每个主题又是词语的概率分布。

主题表示为一个方面，一个概念，表现为相关词的集合。

主题模型是语义挖掘的核心。
LSA/LSI/LDA算法
最主要的主题模型是LDA 隐含狄利克雷分布

已知词和文档的对应关系，我们的目的是找出主题的词分布，文档的主题分布。

主题模型的优点是：
(1) 可以获得文本语义相似性的关系。根据主题模型可以得到主题的概率分布，可以通过概率分布计算文本之间的相似度。
(2) 可以解决多义词的问题。
(3) 可以去除文档中噪音的影响。
(4) 无监督、完全自动化。无需人工标注，可以直接通过模型得到概率分布。
(5) 语言无关。

2.3 基于网络图的方法
主流的基于网络图的算法的是TextRank算法

基于网络图的算法和上述算法不同的一点是，统计分析和基于主题的方法都需要基于一个现成的语料库。
比如TF-IDF需要统计每个词在语料库中多少个文档中出现过，也就是逆文档频率。
基于主题的模型需要通过大规模文档的学习，来发现文档的隐含主题。

TextRank算法可以脱离语料库的背景，仅对单篇文档进行分析就可以提取文档的关键词。

TextRank算法的基本思想来源于Google的PageRank算法。
PageRank算法是一种网页排名算法。基本思想有两条：
(1) 链接质量
(2) 链接数量

最开始将所有网页的得分都设置为1,通过多次迭代来对每个网页的分数进行收敛。
收敛时的分数就是网页的最终得分。

PageRank是有向无权图

原来的文本：
随着知识经济的快速发展。对专利文本的分析与研究可以帮助人们了解新技术，推测技术的发展方向。自动关键词抽
取在中文专利文本的分析与研究中有着至关重要的意义。介绍一些目前已有的自动关键词抽取技术成果，包括有监
督方法和无监督方法．并对关键词抽取的评价指标做简单的介绍。

使用jieba分词然后去掉words_no_filter中的停止词得到的分词：
知识经济/发展/专利/文本/分析/研究/帮助/人们/了解/技术/推测/技术/发展/方向
自动/关键词/抽取/中文/专利/文本/分析/研究/有着/至关重要/意义
介绍/目前/已有/自动/关键词/抽取/技术/成果/包括/监督/方法/无/
监督/方法/关键词/抽取/评价/指标/做/介绍

人类语言是一种复杂网络，具有复杂网络的小世界特性与无标度特性。

语言网络图

词汇选择最根本的原因在于这些词汇本身具有的含义能够表达期望的内容。

基于复杂网络的关键词抽取是一种无监督方法。
在整个语言网络图上寻找起重要作用和中心作用的词或短语，将这些词抽取出来作为关键词。
网络图的代表算法是基于PageRank应用于关键词抽取领域的TextRank算法。
TextRank算法优点：
(1) 无需训练数据，节省了大量成本；
(2) 适应性强。本身是无监督学习方法，具有很强的适应能力和扩展能力，对文本没有主题方面的限制；
(3) 速度快，虽然是矩阵运算，但是收敛速度快。

4.关键词抽取的评价
关键词抽取的目标是选择一组词语，覆盖文档的主题。
关键词抽取的评价主要有两种形式：一种是单纯借助人工的评价方式，由领域专家进行评价，
这种方式可操作性强但缺点也明显，比如认识分歧、词或短语的组合歧义等；
另一种是借鉴信息检索模型中的评价指标，包括准确率、召回率、综合指标F或F1来评价算法的准确性。

一些常用的无监督关键词提取算法
TF-IDF算法、TextRank算法、主题模型算法(LSA、LSI、LDA等)

1.TF-IDF算法

需要一个现成的语料库：需要统计每个词在语料库中的多少个文档中出现过。

基于统计的计算方法
用于评估一个文档集中某个词对文档的重要程度。
可解释性很强：当一个词对一个文档越重要，那么它越可能是文档的关键词。
这里需要注意的是，越重要不一定越多。

TF-IDF算法 = TF*IDF

通过考虑词性和位置可以提升算法。
通常名词作为一种定义现实实体的词带有更多的关键信息；
本文的起始段落和结尾段落也会带有更多的管建新。

和n-grams结合使用

2.TextRank算法
可以脱离语料库，仅对单篇文档进行分析就可以提取文档的关键词
最早用于文档的自动摘要。

TextRank算法基本思想来源于Google的PageRank算法。
PageRank算法是一种网页排名算法
基本思想是：考虑链接数量和链接质量。

链接分析算法：主要用来评价搜索系统覆盖网页重要性的一种方法。

PageRank是有向无权图，TextRank进行自动摘要是有权图。

3.LSA/LSI/LDA算法
这些是主题模型

TF-IDF算法和TextRank算法都是词-文档维度的关系，存在的问题是不能获取隐含信息
而主题模型的维度是词-主题-文档维度的关系。

3.1 LSA/LSI算法
LSA Latent Semantic Analysis 潜在语义分析
LSI Latent Semantic Index 潜在语义索引

LSA主要通过SVD奇异值分解，将词、文档映射到一个低纬的语义空间，挖掘出词、文档的
浅层语义信息，从而对词、文档进行更本质的表达。
核心是通过SVD暴力求解，简单直接的求解出近似的word-topic-document分布信息。

定位是初级的主题模型

缺点：
1.SVD计算复杂度高，特征空间维度较大的，计算效率十分低下
2.LSA得到的分布信息是基于已有数据集的，当新的文档进入，需要对整个空间重新训练
3.LSA对词的频率分布不敏感、物理解释性薄弱

优化办法是
pLSA
通过使用EM算法对分布信息进行拟合替代SVD进行暴力破解

3.2 LDA算法
主题模型的主流方法
LDA Latent Dirichlet Allocation 隐含狄利克雷分布

LDA算法假设文档中主题的先验分布和主题中词的先验分布都服从狄利克雷分布。

先验分布+数据(似然)=后验分布

4.深度学习
基于深度学习的实体关系抽取方法与经典抽取方法相比，主要优势在于深度学习的神经网络
可以自动学习句子特征，无需复杂的特征工程。

*************************************************************************************************************************************************
PPT里面添加一些自己在关键词提取中做的一些尝试
*************************************************************************************************************************************************

参考资料：
1.python自然语言处理实战第五章关键词提取 book
2.自动关键词抽取研究综述赵京胜、朱巧明等论文
3.An Overview of Graph-Based Keyword Extraction Methods and Approaches

http://hejunhao.me/archives/tag/nlp
基于词向量的文本分类推断
这里可以在PPT上添加一页

数据拾光者

发布了80 篇原创文章 · 获赞 27 · 访问量 6万+

私信关注

猜你喜欢