自然语言处理(三)】主题模型

什么是LDA?(latent dirichlet allocation)

  • 是一种无监督的贝叶斯模型
  • 是一种主题模型;
  • 是一种典型的词袋模型;

什么是贝叶斯模型?(事件θ和y同时发生的概率=θ发生的概率*在θ发生的情况下y发生的概率=y发生的概率*在y发生的情况下θ发生的概率)

  • 用概率作为可信度
  • 每次有新数据,就更新可信度;
  • 需要一个模型解释数据的生成;

要想理解LDA,分为以下五个步骤:

  • 一个函数:gamma函数
  • 四个分布:二项分布、多项分布、beta分布、dirichlet分布
  • 一个概念和一个理念:共轭先验和贝叶斯框架;
  • 两个模型:pLSA、LDA
  • 一个采样:Gibbs采样

(1)gamma函数

猜你喜欢

转载自www.cnblogs.com/xiximayou/p/11871063.html