文本特征提取方法——TF-IDF, LDA, Word2Vec

(一)TF-IDF

TF-IDF(term frequency-inverse document frequency)是一种信息检索和数据挖掘常用的加权技术。TF表示词频,IDF 表示逆文本频率,用以评估一个字词对于一个文件集或一个语料库中的一份文件的重要程度。字词的重要性随着在文件中出现的次数成正比,但随着在语料库中出现的频率成反比。

主要思想:某个词或短语在一篇文章中出现的频率TF越高,并在其他文章中很少出现,表示该词语或短语有很好的类别区分能力,适合用来分类。TF-IDF实际上是TF*IDF,IDF表示如果包含词条t的文档越少,n越小,IDF越大,词条t具有很好的类别区分能力,如果某类文档C中包含词条t的文档数是m.对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。

猜你喜欢

转载自blog.csdn.net/weixin_38527856/article/details/86359738