【NLP数据竞赛】“达观杯”文本智能处理挑战赛(二)TF-IDF学习笔记

一、TF-IDF的主要思想

1、计算词频

  词频(TF) = 某个词在文章中的出现次数

文章有长短之分,为了便于不同文章的比较,做"词频"标准化。

  词频(TF) = 某个词在文章中的出现次数 / 文章总词数

或者 词频(TF) = 某个词在文章中的出现次数 / 拥有最高词频的词的次数

2、某个词在文章中的出现次数

这时,需要一个语料库(corpus),用来模拟语言的使用环境。

逆文档频率(IDF) = log(语料库的文档总数/包含该词的文档总数+1)

3、计算TF-IDF

  TF-IDF = 词频(TF) * 逆文档频率(IDF)

  可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。

  所以,自动提取关键词的算法就是计算出文档的每个词的TF-IDF值,

  然后按降序排列,取排在最前面的几个词。

从上表可见,"蜜蜂"的TF-IDF值最高,"养殖"其次,"中国"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。)

所以,如果只选择一个词,"蜜蜂"就是这篇文章的关键词。

总结:

TF-IDF算法的优点是简单快速,结果比较符合实际情况。

缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。

而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。

(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。)

二、TF-IDF的代码实现

sklearn中TfidfVectorizer函数的参数说明:
https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

代码运行截图:

参考博客:
https://www.cnblogs.com/cppb/p/5976266.html
https://blog.csdn.net/devcy/article/details/89071572

猜你喜欢

转载自blog.csdn.net/qq_35175666/article/details/89074248