关键词的提取方法

为了方便用户快速了解文章的中心主题,会抽取文章的一些中心词来表达文章的中心思想。关键词抽取就是通过一定的方法抽取出能表达文章的中心主题的一系列方法。
关键词的提取方法主要分为以下四类

(1)基于语义的方法
在词典的帮助下,通过词法与句法分析进行自动分词、词性标注,使计算机能够理解多种信息片段、词汇间的语义关系,进而通过复杂计算来获得关键词。
例如:SKE算法,该算法运用词语语义相似度构建一个词语语义的相似性网络,再结合社会网络理论,使用居间密度词语语义的关键度,最后将词语语义关键度和词语的统计特征值加权来获得关键词。


(2)基于机器学习的方法
通过对大量训练语料库进行训练,获得各项系统参数和模型,再将模型应用于测试语料库来检验关键词提取效果。
在训练集中,把关键词提取看作是有监督的分类问题。
常用的模型有支持向量机、朴素贝叶斯、最大熵、决策树等。


(3)基于复杂网络的方法
根据候选特征词之间的关系,按照既定规则构建一个复杂网络或者加权复杂网络模型,计算节点权重系数和介数来表示节点综合值,综合值大的即为关键词。
这个方法的计算量往往过大,面对海量文档或者考虑网页效率时,这种方法的缺陷显而易见。


(4)基于统计的方法
通过词语的统计信息来提取关键词,最常用的是词频-逆向文本频率(TF-IDF)指标和N-gram方法,这类方法只需统计相关词语的词频和使用过滤技巧,缺点在于提取精度不高。

这四种方法的本质区别在于从自然语言理解、机器学习、复杂网络和统计等不同领域和角度来处理关键词的提取问题。

猜你喜欢

转载自blog.csdn.net/u012998680/article/details/128498863