tf-idf使用

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zlb872551601/article/details/86589455

一:有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 log(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。

二:根据关键字k1,k2,k3进行搜索结果的相关性就变成TF1IDF1 + TF2IDF2 + TF3*IDF3。比如document1的term总量为1000,k1,k2,k3在document1出现的次数是100,200,50。包含了 k1, k2, k3的docuement总量分别是 1000, 10000,5000。document set的总量为10000。 TF1 = 100/1000 = 0.1 TF2 = 200/1000 = 0.2 TF3 = 50/1000 = 0.05 IDF1 = log(10000/1000) = log(10) = 2.3 IDF2 = log(10000/100000) = log(1) = 0; IDF3 = log(10000/5000) = log(2) = 0.69 这样关键字k1,k2,k3与docuement1的相关性= 0.12.3 + 0.20 + 0.05*0.69 = 0.2645 其中k1比k3的比重在document1要大,k2的比重是0.

tf:比如cid3_1的term总量为1000,k1,k2,k3在cid3_1中出现的次数是100,200,50。
idf:包含了 k1, k2, k3的cid3(而不只是cid3_1)的总量分别是 1000, 10000,5000。所以cid3(而不只是cid3_1)的总量为10000。
idf:还有一种:
包含了 k1, k2, k3的cid3_1的总量分别是 1000, 10000,5000。所以cid3_1的总量为10000。

可能第二种更合适

猜你喜欢

转载自blog.csdn.net/zlb872551601/article/details/86589455