关键词提取方法学习总结（TF-IDF、Topic-model、RAKE） - 代码天地

关键词提取方法学习总结（TF-IDF、Topic-model、RAKE）

其他 2018-11-01 01:41:28 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/mpk_no1/article/details/75201546

关键词是一篇文档中表达的主要话题，处理文档或句子时，提取关键词是最重要的工作之一，这在NLP中也是一个十分有用的task。

常见的关键词提取方法有：TF-IDF关键词提取方法、Topic-model关键词提取方法和RAKE关键词提取。

TF-IDF：

使用TF-IDF提取关键词的方法十分好理解，TF衡量了一个词在文档中出现的频率，一个文档中多次出现的词总是有一定的特殊意义，但是并不是所有多次出现的词就都是有意义的，如果一个词在所有的文档中都多次出现，那么这个词就没有什么价值了。

TF-IDF就很好地衡量了这些因素：TF= （词在文档中出现的次数）/ （文章总词数），IDF= log(语料库中文档综述/(包含该词的文档数+1))

TF-IDF= TF* IDF

TF-IDF值越大，则这个词成为一个关键词的概率就越大。

Topic-model：

使用主题模型提取关键词的关键思想是认为文章是由主题组成的，而文章中的词是以一定概率从主题中选取的，即文章与词之间存在一个主题集合。不同的主题下，词出现的概率分布是不同的。

根据LDA主题模型的学习可以获取文档的主题词集合。

RAKE关键词提取：

RAKE(Rapid Automatic Keyword Extraction)算法的原作者是Alyona Medelyan，RAKE的更新版本就是她完成的，muai indexer也是她的杰作，她的GitHub上有很多关键字提取的项目。

有一篇介绍RAKE算法的文章，链接是：http://python.jobbole.com/82230/

RAKE提取的关键词并不是单一的单词，有可能是一个短语。

每个短语的得分有组成短语的词累加得到，而词的得分与词的度与词频有关：score = degree / freq

其中，当与一个词共现的词越多，则该词的度就越大。

原始的RAKE的GitHub地址： https://github.com/zelandiya/RAKE-tutorial

我自己也创建了一个使用RAKE提取英文句子关键词的项目，可以作为一个RAKE的使用示例，大家可以从我的GitHub上获取，地址为：https://github.com/mpk001/RAKE-keywordsExtraction

猜你喜欢

转载自blog.csdn.net/mpk_no1/article/details/75201546

关键词提取方法学习总结（TF-IDF、Topic-model、RAKE）

TF-IDF关键词提取方法的学习

关键词提取:TF-IDF

TF-IDF提取关键词

TF-IDF方法提取文本关键词

关键词提取(tf-idf与textRank)

Python TF-IDF 算法提取文本关键词

python 基于TF-IDF算法的关键词提取

TF-IDF关键词提取步骤

TF-IDF 提取文本关键词

提取关键词--tf-idf算法讲解

TF-IDF算法之关键词提取

TF-IDF关键词提取算法

机器学习策略与工程--基于TF-IDF的关键词提取

TF-IDF关键词抽取

关键词提取/关键字提取之TF-IDF算法

TF-IDF与余弦相似性的应用（一）：自动提取关键词

TF-IDF与余弦相似性的应用（一）：自动提取关键词（转）

自然语言处理——TF-IDF算法提取关键词

自然语言处理--TF-IDF（关键词提取）

spark TF-IDF特征提取生成文章关键词

python实现tf-idf和textrank提取中文关键词

【自然语言处理】TF-IDF算法提取关键词

自然语言处理之关键词提取TF-IDF

基于TF-IDF算法的短标题关键词提取

jieba之TF-IDF和TextRank提取关键词

Python利用TF-IDF实现文章的关键词提取

自然语言处理：关键词提取（TF-IDF、Textrank）

基于TF-IDF算法抽取文章关键词

4.1 TF-IDF抽取文本关键词

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)