关键字提取笔记

定义:从文本中与这篇文章意义最相关的一些词语抽取出来。

抽取的两种方法:

  • 关键词分配:给定一个已有的关键词库,对于新来的文档从该词库里面匹配几个词语作为这篇文档的关键词,有点类似抗战时期的密码本-以及密码破译过程;
  • 关键词提取:针对新文档,通过算法分析,提取文档中一些词语作为该文档的关键词。

目前,第二种在实际应用中更准确,因而用的更多。

基于TF-IDE算法进行关键词提取

  • TF-IDF是一种数值统计,用来反映一个词语对于语料中某篇文档的重要性。
  • TF-IDF的主要思想:如果某个词在一篇文档中出现的频率越高,即TF越高;并且在语料库中其他文档中很少出现,即DF低,也就是IDF越高,则认为这个词具有很好的类别区分能力。
  • jieba分词库已经实现了基于TF-IDF算法的关键词抽取,通过import jieba.analyse引入,函数参数解释如下:
1 jieba.analyse.extract_tags(sentence,topK=20,withWeight=False,allowPOS=())
3 sentence:待提取的文本语料
4 topK:返回TF-IDF权重最大的关键词个数,默认是20
5 withWeight:是否需要返回关键词权重值,默认是False
6 allowPOS:仅包括指定词性的词,默认值是空,即不筛选

明晚上测试代码,今晚计算机不方便;

基于TextRank算法进行关键词提取

  • 核心思想是将文本中的词语当作图中的节点,通过边相互连接,不同的节点会有不同的权重,权重高的节点可以作为关键字。

猜你喜欢

转载自www.cnblogs.com/daisy99lijing/p/12520849.html