【NLP数据竞赛】“达观杯”文本智能处理挑战赛（二）TF-IDF学习笔记

其他 2019-04-14 03:08:50 阅读次数: 0

一、TF-IDF的主要思想

1、计算词频

　　词频（TF） = 某个词在文章中的出现次数

文章有长短之分，为了便于不同文章的比较,做"词频"标准化。

　　词频（TF） = 某个词在文章中的出现次数 / 文章总词数

或者词频（TF） = 某个词在文章中的出现次数 / 拥有最高词频的词的次数

2、某个词在文章中的出现次数

这时，需要一个语料库（corpus），用来模拟语言的使用环境。

逆文档频率（IDF） = log（语料库的文档总数/包含该词的文档总数+1）

3、计算TF-IDF

　　TF-IDF = 词频（TF) * 逆文档频率（IDF）

　　可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。

　　所以，自动提取关键词的算法就是计算出文档的每个词的TF-IDF值，

　　然后按降序排列，取排在最前面的几个词。

从上表可见，"蜜蜂"的TF-IDF值最高，"养殖"其次，"中国"最低。（如果还计算"的"字的TF-IDF，那将是一个极其接近0的值。）

所以，如果只选择一个词，"蜜蜂"就是这篇文章的关键词。

总结：

TF-IDF算法的优点是简单快速，结果比较符合实际情况。

缺点是，单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。

而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。

（一种解决方法是，对全文的第一段和每一段的第一句话，给予较大的权重。）

二、TF-IDF的代码实现

sklearn中TfidfVectorizer函数的参数说明：
https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

代码运行截图：

参考博客：
https://www.cnblogs.com/cppb/p/5976266.html
https://blog.csdn.net/devcy/article/details/89071572

猜你喜欢

转载自blog.csdn.net/qq_35175666/article/details/89074248

【NLP数据竞赛】“达观杯”文本智能处理挑战赛（二）TF-IDF学习笔记

【NLP数据竞赛】“达观杯”文本智能处理挑战赛（一）数据初识

【NLP数据竞赛】“达观杯”文本智能处理挑战赛（二）word2vec词嵌入

数据竞赛-“达观杯”文本智能处理-Day2：TF-IDF实践

【NLP数据竞赛】“达观杯”文本智能处理挑战赛（四）线性回归LR+支持向量机SVM

【数据竞赛】“达观杯”文本智能处理挑战赛２

“达观杯”文本智能处理挑战赛

达观杯文本智能处理挑战赛

“达观杯”文本智能处理挑战赛代码示例

2018“达观杯”文本智能处理挑战赛心得

“达观杯”文本智能处理挑战赛１

达观杯”文本智能处理挑战赛

达观杯文本处理（二）----TF-IDF理论并实践

sklearn文本特征提取与“达观杯”文本智能处理挑战赛

“达观杯”文本智能处理挑战赛心得体会

2018年"达观杯"文本智能处理挑战赛-长文本分类-rank4解决方案

达观杯NLP挑战赛复盘

数据竞赛-“达观杯”文本智能处理-Day1

TF-IDF学习笔记（二）

学习笔记--NLP文本相似度之TF-IDF

【NLP】英文数据预处理___Gensim(tf-idf LDA)

NLP ----- TF-IDF

达观杯文本智能信息抽取挑战赛四到十名队伍分享

达观杯文本智能信息抽取挑战赛前三名队伍分享

【达观杯】数据竞赛学习篇（二）

数据竞赛-“达观杯”文本智能处理-Day6：模型优化

数据竞赛-“达观杯”文本智能处理-Day5：LightGBM模型

数据竞赛-“达观杯”文本智能处理-Day3：word2vec实践

“达观杯”文本分类挑战赛新手入门代码

NLP文本相似度(TF-IDF)

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

VS2017编译opensmile具体过程和遇到的问题

PowerEnglish——mini-story3总结

微信小程序数据库获取字符串在view中显示换行

Java静态代码块/构造代码块/构造函数/静态变量/成员变量(相关示例)

Keras使用tensorflowjs部署demo

window下用git连接Github

图象的全变分和去噪

LeetCode刷题笔记--119. Pascal's Triangle II

【Linux】进程间通信 - 管道

polyA|ribo-minus|differentiated cell|Genetic heterogeneity

每日归档

更多

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)

2024-04-08(60)