TF-IDF算法

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/woshiliulei0/article/details/82886638

TF-IDF算法可以分解为两部分:TF和IDF

一、TF算法

1.词频(term frequency,TF)
2.公式: T F = N i , j k N k , j TF =\frac {N_{i,j}}{ \sum_{k}N_{k,j}}
3.解释:以上式子中分子是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。

二、IDF算法

1.逆向文件频率(inverse document frequency,IDF)
2.公式: I D F = l g D j : t i d j IDF =lg \frac {|D|}{|j:t_i ∈d_j|}
3.解释:逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到

猜你喜欢

转载自blog.csdn.net/woshiliulei0/article/details/82886638