如何确定LDA主题模型中的主题个数?

1 基于经验 

主观判断、不断调试、操作性强、最为常用

2 基于困惑度Perplexity

该方法需要测测试集!

3 贝叶斯统计标准方法

参考文献:Griffiths T L, Steyvers M. Finding Scientific Topics[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(S1): 5228-5235.

使用Log-边际似然函数的方法,这种方法也挺常用的

4 非参数方法:Teh提出的基于狄利克雷过程的HDP法

参考文献:Teh Y, Jordan M, Beal M, et al. Hierarchical Dirichlet Processes [J]. Journal of the American Statistical Association, 2007, 101(476): 1566-1581.

Reference

怎么确定LDA的topic个数?

发布了74 篇原创文章 · 获赞 17 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/sinat_25394043/article/details/104139715