《A Neural Attention Model for Abstractive Sentence Summarization》论文笔记

原文链接:https://arxiv.org/abs/1509.00685
Github:https://github.com/facebookarchive/NAMAS
文章来源:EMNLP 2015
学术机构:Facebook AI Research / Harvard SEAS
研究问题:生成式自动摘要

1 Introduction

背景

2 Background

本论文使用的是abstractive方法,旨在发现最优的序列:
在这里插入图片描述
而extractive方法的目标函数是
在这里插入图片描述
compression方法的目标函数是
在这里插入图片描述
本论文主要着重在改造factored scoring functions上,该函数还考虑到前面固定词语的窗口信息
在这里插入图片描述
其中
在这里插入图片描述
考虑summary的条件对数概率在这里插入图片描述
可以写成:
在这里插入图片描述

3 Model

3.1 Neural Language Model

语言模型主要是根据上下文信息,预测下一个单词的概率。主要参考NNLM模型(neural network language model)。
在这里插入图片描述

3.2 Encoders

Bag Of Words Encoder

使用词袋模型作为baseline。
缺点:词袋模型忽略了原始文本的序列信息,和邻近词信息。
优点:此模型能捕获单词之间的相对重要性,并能区分内容词、停用词和修饰词。
在这里插入图片描述

Convilutional Encoder

改进了词袋模型,此模型允许单词之间的局部交互影响,并在输入时不需要上下文Yc,使用了标准的TDNN(time delay neural network)结构
在这里插入图片描述

Attention Based Encoder

为了增强encoder语言模型的表征能力(encoder 输出的vector ),引入了attention机制。
非正式地,我们可以将此模型简单地看作是使用一个learned soft alignment between the input and the summary 替代uniform distribution in bag-of-words。
the soft alignment 是为了在构造表征时,用于权衡加了smoothed的输入x
在这里插入图片描述 在这里插入图片描述

Trainning

训练模型时,没有添加生成约束,所以能支持所有可能的训练对。
定义input-summary pairs,使用mini-batch SGD优化负对数极大似然损失:
在这里插入图片描述

4 Generating Summaries

生成目标是
在这里插入图片描述

不同于inference复杂度为NP-hard的MT任务,本任务没有显式的硬对齐约束,因此viterbi decodeing可以用作推断算法,并且只需要O(NV^C)的复杂度。但如果V足够长,那么此任务还是存在一定的难度。

为了在excat和greedy decoding中进行折中,选择了beam-search decoder进行推断。它能限制在每个位置只保留K个潜在的候选项。每一轮BS的计算会受K个hypotheses的的主导。
在这里插入图片描述

5 Extension:Extractive Tuning

加了attention机制尽管能提升了模型的能力,但是模型缺乏抽取输入单词的能力。例如模型不能很好地转移看不见的专有名词。
为了解决此问题,本论文添加了一个小的附加特征,用于权衡系统的生成/抽取能力。
因而修改了scoring function,使用log-linear model直接评估summary的概率:
在这里插入图片描述

其中α是权重向量,f是特征函数。

在此分布下找到最优的summary,相当于最大化以下因子得分函数s:
在这里插入图片描述
其中
在这里插入图片描述
函数f结合了local conditional probability 和 additional indicator features(unigram, bigram, trigram match with the input):
在这里插入图片描述

6 Related Work

相关工作

7 Experimental Setup

data set

使用的是DUC-2004/Gigaword
使用ROUGE进行模型评估,ROUGE-1/ROUGE-2/ROUGE-L

Implementation

经过validation的测试,模型设置参数:
D=200
H=400
C=5
L=3
Q=2
在验证集上,用了4天,达到最好的训练效果。

8 Result

使用了不同模型作了效果对比
在这里插入图片描述

使用了不同的encoder进行训练,对比
在这里插入图片描述
使用不同的inference算法,作了比较。最好的结果是使用attention versus BoW + beam search的encoder。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Neleuska/article/details/87690471