机器学习部分:TF-IDF算法

TF-IDF算法

TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,如从一篇文章中找到它的关键词。

TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上就是 TF*IDF,其中 TF(Term Frequency),表示词条在文章Document 中出现的频率;IDF(Inverse Document Frequency),其主要思想就是,如果包含某个词 Word的文档越少,则这个词的区分度就越大,也就是 IDF 越大。对于如何获取一篇文章的关键词,我们可以计算这边文章出现的所有名词的 TF-IDF,TF-IDF越大,则说明这个名词对这篇文章的区分度就越高,取 TF-IDF 值较大的几个词,就可以当做这篇文章的关键词。

 

  1. 词频(TF)=某关键词出现次数/文章中关键词总数

    或者

    词频(TF)=某关键词出现次数/文章中出现最多次数关键词的出现次数

    接着,计算逆文档频率(IDF)。计算IDF需要一个语料库,它的计算公式很简单

    逆文档频率(IDF)=log(语料库文档总数/(包含该词的文档数+1))

  2. 之所以要+1是为了防止分母为0。由此可见,当一个词被越多的文档包含,则IDF值就越小,也就是所这个词很常见,不是最重要的能区分文章特性的关键词。

这样,某个词条的TF-IDF的值为 ,即某一个文件中高频出现的词条,以及该词条在整个语料库文件中低频出现的现象,就可以产生高权重的TF-IDF,因此,TF-IDF倾向过滤掉常见的词语,保留重要的词语。即:字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

猜你喜欢

转载自blog.csdn.net/wyqwilliam/article/details/81710936
今日推荐