Unsupervised Abstractive Meeting Summarization...论文笔记

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ccbrid/article/details/84635562

1. 论文信息

Unsupervised Abstractive Meeting Summarization with Multi-Sentence Compression and Budgeted Submodular Maximization

ACL 2018

2. 相关工作(本文使用到了以下工作内容)

•Multi-Sentence Compression Graph (MSCG) (Filippova, 2010)

•More informative MSCG (Boudin and Morin, 2013)

•Graph-based wordimportancescoring (Tixieret al., 2016a)

•Fluency-aware, more abstractive MSCG (Mehdadet al., 2013)

•Submodularityfor summarization(Lin and Bilmes, 2010; Lin, 2012)

2.1 Multi-Sentence Compression Graph (MSCG) (Filippova, 2010)

•描述: 具有特殊权重(link frequency)的词图,找到K个最短的加权边,使用一个scoring function重新排序,得到的最好的路径即为多句压缩的结果。

•局限性: 丢失了重要信息,语法不完美

•下一步: 提升重要信息与语法,结合2.2所描述的内容。

2.2 More informative MSCG (Boudin and Morin, 2013)

•描述: 任务和方法与Filippova(2010)相同,构建词共现网络,使用Mihalceaand Tarau(2004)的方法计算节点的PageRank,将此分数加入对路径重新排序的函数之中,用来为路径加入信息。

•局限: PageRank并不是找到文档里word的重要性的最好的方式,且没有提升语法。

•下一步: 语法 ,使用最近的(Tixieret al., 2016a),其与“keywordedness”相关联的spreading influence比PageRank scores好。

2.3 Graph-based word importance scoring (Tixieret al., 2016a)

•描述: 使用固定大小的滑动窗口构建词共现网络(word co-occurrence network)为一个无向加权图,边权重表示共现次数。 

•局限: 生成的句子依旧丢失重要信息且语法也不完美。

•下一步:  Boudin and Morin (2013) 和 Mehdadet al. (2013).

3. 本文方法

本文方法:

1). 文本预处理

•ASR语音转文字

•过滤拟声词,间隔词,重复词,uh-huh, okay, well, by the way等等;

•频率低于阈值3多非停止词nonstopword被剪掉; 

2). 发言社区检测(TFIDF聚类)

3). 多句压缩

•词的重要性排序 -> 构建词图 -> 边的权重分配 -> 边的重排

4). 子模块预算最大化

具体描述:

2). 发言社区检测(TFIDF聚类)

使用k-means,将同一个主题的发言聚类到不同的社区,每一句发言都被映射到向量空间,使用标准TF-IDF分配权重。

其中utterance-term matrix使用Latent Semantic Analysis (LSA)来约减维度。

注意:

•We think word embeddings was not effective, because in meeting speech, participants tend to use the same term to refer to the same thing throughout the entire conversation.

•This is probably why, for clustering utterances, capturing synonymy is counterproductive, as it artificially reduces the distance between every pair of utterances and blurs the picture.

3). 多句压缩

•词的重要性排序 -> 

构建无向加权图,计算节点的CoreRank值,重新分配CoreRank分数,表示词在该簇内的重要程度,a term在不同簇出现的数量非常少。

•-> 构建词图 -> 

•-> 边的权重分配 ->

•-> 边的重排

4). 子模块预算最大化

持续更新

猜你喜欢

转载自blog.csdn.net/ccbrid/article/details/84635562