关键词抽取模型得总结

对于文本分析而言,关键词是很重要的一个分析成分,对于抽取关键词而言,一般采用的有四种方式。

首先,对于TF-IDF,TF指的是词频, IDF指的是逆文档频率,一般是二维矩阵, 行代表的是文档,列代表的是单词。优点是可以很快的提炼出代表性的单词,一般而言,精度满足需求,但主要的缺陷在于应用与分类中,如何应用是一个问题。在某一类文本中,出现词频高的词不仅仅是停止词之类的,词频高的词也可以很好的代表这一类文章。此时,需要统计分类的类别,然后利用某单词下的某类别中的平均值来作为单词的Tf-idf,最终得到某类别下的TF-IDF值高的前几位,来作为关键词来处理。

其次,利用TextRank算法,是一种基于图排序的做法。在TFIDF中,主要针对的是多篇文档的情况,而如果文档比较少的情况下,需要得到某篇文档中的关键词,则需要利用的TextRank技术。主要是将文本分割为若干个单元并组成图模型,利用投票机制来对文本中的重要成分进行排序,也就是利用单篇文章本身就可以实现关键词的抽取问题。


猜你喜欢

转载自blog.csdn.net/angela2016/article/details/80534585