【tf-idf】理解

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/weixin_35390390/article/details/73877443


tf:

衡量词在文档中的重要性。表示词在文档中出现的频率,即词频

    tf=词在文档中出现的次数/文档中所有词的个数

或者

    tf=词在文档中出现的次数/文档中出现最多的词的次数


idf:

衡量词的普遍性。表示词在文档集合中出现的频率,即逆文档频率

    idf=log(文档集合总个数/包含词的文档个数+1)

或者

    idf=log(文档集合所有词的个数/词在文档集合中出现的总次数+1)


一般使用tf*idf来体现一个词的独特性,即词对文档描述的重要性,关键词。


有一种说法如下:

    但是实际上,有时候,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.

这种说法个人并不同意,我认为这是对tf-idf的一种误解。

tf-idf描述词对于文档的独特性、代表性,这种独特不仅是独特于其他类别的文档,同时也独特于同类的文档的。

直接使用idf来寻找某一类文档的关键词本身是对tf-idf的一种误解,可使用tf-idf+余弦相似对文档聚类分类,之后将每一个类别当做一个文档,使用tf-idf寻找能代表该类的词





猜你喜欢

转载自blog.csdn.net/weixin_35390390/article/details/73877443