关键词提取:TF-IDF

TF-IDF是一个精巧而又简单的算法,可以较快的提取一篇文章的关键词。在工业界,像搜索引擎、推荐系统这样的业务,围绕着关键词可以进行许多的尝试。

1.什么是TF-IDF

TF-IDF全称叫做词频-逆文档频度,现在假设我们有10000篇文章等待我们标记关键词,在这个算法中,我们需要计算的只有词频和逆词频。
词频就是指某一个词在某一篇文章中出现的频度,而逆词频可以理解为,拥有这个词的文章的比例。
我们通过词频来表示某一个词在一个文章中的重要程度,再通过逆词频来表示某一个词的通用程度(比如像:的、这里、叫做 这样的词)。
通过词频和逆词频,我们就可以得到一篇文章在一个文档集的关键词。

2.TF-IDF是如何计算的

TF-IDF只需要计算词频和逆词频,即TF和IDF。
现在假设我们有一个很大的文章集D,里面的文章分别是d1,d2,…dn
文章集D中某一篇文章经过分词后会产生m个词,w1,w2…wm
我们所要求得的词频,即TF(wi,dj) = (词wi在文章dj出现的次数/文章dj的词数)
我们所需要的逆词频,即IDF(wi,D)=log(文章集中文章的个数/文章集中包含词wi的个数)
最后我们的TF-IDF(wi,dj) = TF(wi,dj) *IDF(wi,D)

从公式上来看,如果一个词wi在文章dj中出现的频率越高,包含词wi的文章越少,则wi与文章dj的相关性就越高,引入了IDF因子,有效的降低了高频词汇对关键词提取的影响。

3.TF-IDF的一些应用

1.获取文章的关键词
通过计算文档集中每篇文章的TF-IDF,然后对socre降序排列,取出前N个即可。

2.获取与某个关键词最相关的文档
计算每个文档的TF-IDF(w,d),其中w为我们所提供的关键词,选取score最大的即可

3.计算文档之间的相似度
对于文章d1和d2,我们可以先取出两个文档都出现的词w1,w2…wn,分别计算n个词关于文档d1和d2的TF-IDF,表示为两个向量,v(word,d1)和v(word,d2),通过余弦定理计算两个向量的距离,从而对文章相似度进行表征。

猜你喜欢

转载自blog.csdn.net/Daverain/article/details/85224533