三层Dirichlet 过程(非参贝叶斯模型)-来自Machine Learning

本文作者:合肥工业大学 管理学院 钱洋 email:[email protected] 内容可能有不到之处,欢迎交流。

未经本人允许禁止转载

文章来源

Nguyen V A, Boyd-Graber J, Resnik P, et al. Modeling topic control to detect influence in conversations using nonparametric topic models[J]. Machine Learning, 2014, 95(3): 381-421.
来自于机器学习顶级期刊《Machine Learning》上。这篇文章首先发表在12的Machine Learning会议上,后改投至其对应的期刊。

文章简介

首先,这篇文章是三层的DP模型,即非参层次贝叶斯模型,所要解决的问题是:(1)发掘一系列对话中的主题;(2)这些主题在各对话中是怎么共享的;(3)在对话的什么阶段,讨论的主题会发生改变(这里使用的二元变量控制);(4)话题的控制。作者评估的数据集包括会议记录,在线讨论以及政治辩论数据集。
在多方对话行为中,人与人是相互影响的,那么现有的研究就包括如何学习和识别多方对话中的具有影响力的人。在早期的研究中,主要采访的方法是结构模式学习(structural patterns),例如基于说话的时间以及参与的积极性来判断参与者是否有影响力。如果参与者谈论的很多,那么该参与者则更具影响力,更具领导能力们更加具有控制性(这里作者列举了一些列研究)。现有的研究中,主要使用的是计算学方法,也是确定结构性特征来划分该参与者是否有影响力。
但是呢,话题的参与者说话声音大、时间长却并不一定能表示他更具影响力。在结构模式学习中,语言的特征在建立影响力以及控制话题方面也扮演者重要的角色。例如,有学者研究表明,语言表达的多样性、词汇的丰富性与在线社区中的领导者有强相关关系。
在这篇文章中,作者提出了一种新的计算模型来获取参与者对对话的影响。模型名称为Speaker Identity for Topic Segmentation 即SITS。

论文笔记


这里写图片描述


这里写图片描述


这里写图片描述


这里写图片描述


这里写图片描述


这里写图片描述





这里写图片描述


这里写图片描述


这里写图片描述


这里写图片描述


这里写图片描述


这里写图片描述


这里写图片描述


这里写图片描述


这里写图片描述


这里写图片描述

简单思考

针对这种具有三层结构的文本数据的主题学习,可以参考这篇文章的思路。管理中的用户偏好学习。

论文代码

作者提供的源码地址为:https://github.com/vietansegan/sits

猜你喜欢

转载自blog.csdn.net/qy20115549/article/details/79970298