LDA——主题模型_note

前提:

利用朴素贝叶斯的分析可以胜任许多文本分类问题
但是无法解决语料中***一词多义*** 和***多词一义***的问题
那么可以加入一个“主题”的方式,一定程度可以解决

  • 一个词可能被映射到多个主题中:一词多义
  • 多个词可能被映射到某个主题的概率很高:多词一义

主要内容

先验分布——共轭分布

在贝叶斯概率理论中,如果后验概率和先验概率满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。

             先验分布 + 数据(似然) = 后验分布

举个例子:
在对抛硬币的认知中,先验分布为:50次朝上,50次朝下。现在你再抛了3次,两次朝上,一次场下。于是你的后验分布编程52次朝上,51次朝下。现在你的后验分布中朝上的次数比朝下的次数多了。这个后验分布接着又变成你的新的先验分布,当你再抛4次,1次朝上,3次朝下时。你的后验分布又变成53次朝下,54次朝下,以此更新。

这里要求我们的后验分布可以作为下一次试验的先验分布,换言之,要采用共轭分布。而二项分布中,Beta分布就是二项分布的特例符合,共轭要求。

Beta分布——Dirichlet分布

上面抛硬币只是有两种情况,假如对于一个文本主题,可能有武侠、科幻、言情、现实等等多个主题呢?就要采用多维度的Beta分布,而超过二维的Beta分布,总体统称Dirichlet分布。

三层贝叶斯网络模型LDA

在这里插入图片描述
整体流程是:
1、基于α去采样这篇文档的主题分布,得到第m篇文档的第n个词它的主题编号。
2、基于β去采样各个主题的此分布。
3、由1中的主题编号找到2中主题分布的词向量,采样出一个词,得到第m篇文档第n个主题的词是什么。
接着循环上面操作,最后得到所有文档的所有词

在这里插入图片描述
第m篇文档的第n个词,它的主题变量
在这里插入图片描述
第m篇文档第n个主题的词是什么

Gibbs采样和更新规则

感兴趣可以移步到下面大牛博客
https://www.cnblogs.com/pinard/p/6867828.html

应用方向

  • 信息提取和搜索 (如:语义分析)
  • 文档分类/聚类、文章摘要、社区挖掘
  • 基于内容的图像聚类、目标识别(如: 以及其他计算机视觉应用)
  • 生物信息数据的应用

Reference:
https://www.cnblogs.com/pinard/p/6831308.html
https://www.bilibili.com/video/av75449781?from=search&seid=986913091899957655

发布了28 篇原创文章 · 获赞 2 · 访问量 991

猜你喜欢

转载自blog.csdn.net/sinat_36118365/article/details/103702919