主题模型 Topic Model
主题模型是用来在大量文档中发现潜在主题的一种统计模型。
LDA
Linear Discriminate Analysis 线性判别分析
LDA 是一种文档主题生成模型, 是一个三层贝叶斯概率模型。
所谓生成模型:我们认为, 一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
-
LDA是一种可作为特征抽取的技术
-
可以提高数据分析过程中的计算效率
- 对于不适用与正则化的模型,可以降低因维度灾难带来的过拟合