Introduction to Topic Modeling learning

原文:http://chentingpc.me/article/?id=616

Topic Modeling(主题模型)是一个比较神奇的东西,之前听说过,没意识到它的重要性。直到唐总的点拨后重新认真看看,可以说文本挖掘的一个基础吧(比较 高级的基础?)。问题的输入是文档,输出是低维空间的主题,是unsupervised算法。基本经历发展是 LSI->pLSI->LDA->various LDA,pLSI和LDA都是生成模型,特别是LDA,这种看待文本的思想是很奇妙的。LDA的思想虽简单,但是利用EM/Gibbs等进行概率推导学起 来就没那么简单(写此文时候这部分还没完全弄清楚;唐总说TM是用一个月来学的问题或用两三个月来学的问题,呼呼,真的假的。。不知道他说这句话时候的要 求是多高)。

仔细看LDA有两三天了,今晚也跑了跑Mallet,也有了感性的认识。下面就把入门的文章整理下吧(这些文章都可以从网上公开下载,所以这里附件其中不算侵权吧。。。):

 

Survey

Specific

Video Lecture

  • D.Blei的一个很不错的lecture,由于网速原因,我只能看到其课件不能看lecture,但毫无疑问是好lecture(这东西就是D.Blei等人03年提出的)。
  • 另一个D. Blei的lecture

Open Source

Derived (not recommended for newcomers)

  • dynamic LDA : dynamic_topic_models.pdf
  • The Author-Topic Model for Authors and Documents
  • Correlated Topic Models
  • Automatic Labeling of Multinomial Topic Model

猜你喜欢

转载自san-yun.iteye.com/blog/1966643