tf-idf原理

从例子上理解比较简单:
词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。


tf-idf 模型
当前,真正在搜索引擎等实际应用中广泛使用的是 tf-idf 模型。tf-idf 模型的主要思想是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。[3]

信息检索的概率视角
直观上看,tf 描述的是文档中词出现的频率;而 idf 是和词出现文档数相关的权重。我们比较容易定性地理解 tf-idf 的基本思想,但具体到 tf-idf 的一些细节却并不是那么容易说清楚为什么。[3]

猜你喜欢

转载自everlasting-188.iteye.com/blog/1946086