对gibbs采样算法中的 罐子模型 的理解


在之前学习gibbs采样算法时,
https://www.cnblogs.com/pinard/p/6867828.html
对这句话,觉得很难理解, 不明白为什么要去掉i  联合分步的概率从哪里来 ?  这句话是整篇文章的精华和关键。。

搜了其他很多的文章, 仍然不懂, 为何 排除当前词的主题分布,即 根据其他词的主题分布和主题下观察到的单词 可以用来计算 当前词 主题的概率 ?

最后在这篇文章中醒悟了,https://blog.csdn.net/pipisorry/article/details/42649657
" wi(=t)被赋予主题k的概率为 所有词t在主题k中的概率*主题k中的词个数在整个文档中的概率。
即主题k上词t的概率越大,且文档m中的其它词(-i)被赋予主题k的概率越大,那么文档m中的词wi被赋予主题k的概率就越大
这就是罐子模型!richer get richer! "

我理解的,举个例子,有一堆各式各样的包包(公文包,零食包,化妆包等),有一个散粉, 你不知道 散粉 应该属于什么包包。 (你不知道 你要的词属于哪个类别) (散粉是非专业人士不知道的化妆品)
在某一个包包里,你发现了唇膏/睫毛膏/眼影/镜子等等女生用的玩意,同时这个包里还有散粉。 则抛去散粉(抛去i),我们根据其他的 唇膏/睫毛膏/眼影这些物品 可以猜到这个包是化妆包, 而散粉也刚好出现在这个包里, 那散粉属于化妆包,而不是其他公文包/零食包等的可能性更大!

其实刚开始看https://blog.csdn.net/pipisorry/article/details/42649657 文章时,也看到了这句话,但并没有深入了解。可能是文章太长了,或我那会疑问太多了。 但后来过几天看第三遍时,醒悟了。

猜你喜欢

转载自blog.csdn.net/anthea_luo/article/details/80631748