关键词提取:TF-IDF

TF-IDF是一个精巧而又简单的算法，可以较快的提取一篇文章的关键词。在工业界，像搜索引擎、推荐系统这样的业务，围绕着关键词可以进行许多的尝试。

1.什么是TF-IDF

TF-IDF全称叫做词频-逆文档频度，现在假设我们有10000篇文章等待我们标记关键词，在这个算法中，我们需要计算的只有词频和逆词频。
词频就是指某一个词在某一篇文章中出现的频度，而逆词频可以理解为，拥有这个词的文章的比例。
我们通过词频来表示某一个词在一个文章中的重要程度，再通过逆词频来表示某一个词的通用程度(比如像：的、这里、叫做这样的词)。
通过词频和逆词频，我们就可以得到一篇文章在一个文档集的关键词。

2.TF-IDF是如何计算的

TF-IDF只需要计算词频和逆词频，即TF和IDF。
现在假设我们有一个很大的文章集D，里面的文章分别是d1，d2，…dn
文章集D中某一篇文章经过分词后会产生m个词，w1，w2…wm
我们所要求得的词频，即TF(wi,dj) ＝ (词wi在文章dj出现的次数／文章dj的词数)
我们所需要的逆词频，即IDF(wi,D)=log(文章集中文章的个数/文章集中包含词wi的个数)
最后我们的TF-IDF(wi,dj) = TF(wi,dj) *IDF(wi,D)

从公式上来看，如果一个词wi在文章dj中出现的频率越高，包含词wi的文章越少，则wi与文章dj的相关性就越高，引入了IDF因子，有效的降低了高频词汇对关键词提取的影响。

3.TF-IDF的一些应用

1.获取文章的关键词
通过计算文档集中每篇文章的TF-IDF，然后对socre降序排列，取出前N个即可。

2.获取与某个关键词最相关的文档
计算每个文档的TF－IDF(w,d)，其中w为我们所提供的关键词，选取score最大的即可

3.计算文档之间的相似度
对于文章d1和d2，我们可以先取出两个文档都出现的词w1，w2…wn，分别计算n个词关于文档d1和d2的TF-IDF，表示为两个向量，v(word,d1)和v(word,d2)，通过余弦定理计算两个向量的距离，从而对文章相似度进行表征。

1.什么是TF-IDF

2.TF-IDF是如何计算的

3.TF-IDF的一些应用

猜你喜欢