主题模型 整理

主题模型 Topic Model

主题模型是用来在大量文档中发现潜在主题的一种统计模型。

LDA

Linear Discriminate Analysis   线性判别分析

LDA 是一种文档主题生成模型, 是一个三层贝叶斯概率模型。

所谓生成模型:我们认为, 一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。

  • LDA是一种可作为特征抽取的技术

  • 可以提高数据分析过程中的计算效率

  • 对于不适用与正则化的模型,可以降低因维度灾难带来的过拟合

猜你喜欢

转载自www.cnblogs.com/shona/p/11449136.html
今日推荐