前提：

利用朴素贝叶斯的分析可以胜任许多文本分类问题
但是无法解决语料中***一词多义*** 和***多词一义***的问题
那么可以加入一个“主题”的方式，一定程度可以解决

一个词可能被映射到多个主题中：一词多义
多个词可能被映射到某个主题的概率很高：多词一义

主要内容

先验分布——共轭分布

在贝叶斯概率理论中，如果后验概率和先验概率满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。

             先验分布 + 数据（似然） = 后验分布

举个例子：
在对抛硬币的认知中，先验分布为：50次朝上，50次朝下。现在你再抛了3次，两次朝上，一次场下。于是你的后验分布编程52次朝上，51次朝下。现在你的后验分布中朝上的次数比朝下的次数多了。这个后验分布接着又变成你的新的先验分布，当你再抛4次，1次朝上，3次朝下时。你的后验分布又变成53次朝下，54次朝下，以此更新。

这里要求我们的后验分布可以作为下一次试验的先验分布，换言之，要采用共轭分布。而二项分布中，Beta分布就是二项分布的特例符合，共轭要求。

Beta分布——Dirichlet分布

上面抛硬币只是有两种情况，假如对于一个文本主题，可能有武侠、科幻、言情、现实等等多个主题呢？就要采用多维度的Beta分布，而超过二维的Beta分布，总体统称Dirichlet分布。

三层贝叶斯网络模型LDA

在这里插入图片描述
整体流程是：
1、基于α去采样这篇文档的主题分布，得到第m篇文档的第n个词它的主题编号。
2、基于β去采样各个主题的此分布。
3、由1中的主题编号找到2中主题分布的词向量，采样出一个词，得到第m篇文档第n个主题的词是什么。
接着循环上面操作，最后得到所有文档的所有词
注
在这里插入图片描述
第m篇文档的第n个词，它的主题变量

第m篇文档第n个主题的词是什么