论文笔记 --《Bottom-Up Abstractive Summarization》

来源： EMNLP 2018
关键词：NLG，Bottom-Up, Text-Summarization

1.背景及问题描述（Abstract）

文本摘要是需要从长文本上生成内容相关的文本摘要。基于神经网络的生成式文本摘要发方法可以生成非常通顺的结果，但是他们却不擅长进行内容选择（content selection）。本篇论文引入一个简单的内容选择器（content selector），首先来决定文档中哪部分是有效的，然后只需要在这部分句子上做生成摘要。实验表明，这种方法可以提升句子压缩的质量，同时产生流畅的摘要。并且，这种两部走的办法要比end-to-end的模型要简单和高效。此外，内容选择器（content selector）的训练只需要非常少的句子就能取得比较好的效果，所以迁移到其他模型是非常容易的。

2.已有的解决方案

目前生成式文本摘要表现比较好的模型是使用 pointer-generator models实现的end-to-end模型。

3.解决方案概述

作者提出的 Bottom-Up方案就是将一般的end-to-end模型分两部走，第一步从长文档中选择可能相关的部分，然后在选择的部分执行常规的摘要模型。作者的思路是从CV中得到的，在做物体识别时，先在图像上画框确定范围，然后只需要关注在这个框里面。

其中内容选择器的实现就是看作一个序列标注问题（sequence-tagging problem），作者只使用Elmo词向量就可以实现超过 60% recall 和50% precision的模型。

把第一步的结果引入到后面的摘要模型中，只需要使用masking机制来限制从原文中copy单词。

1.Bottom-Up Attention

首先定义文本摘要的一般定义：对于文本对 $(X,Y)$ ,其中， $x\in{X}$ 表示source 序列 $x_1,...,x_n$ ， $y\in{Y}$ 表示生成的摘要序列 $y_1,...,y_m$ ，其中 $m << n$ 。

作者是把内容选择当作序列标注问题来处理，那么第一步就是需要构造标注数据。作者的处理办法是，文本摘要数据集通常是文档-摘要对，所以作者将摘要与文档对其来构造监督数据。详细的，对于文档中的token $x_i$ 被选中，当：

它在一段尽可能长的子序列 $s=x_{i-j:i:i+k}$ 中,同时 $s\in{x}$ 并且 $s\in{y}$ 。
前面不存在与 $s$ 相等的序列。

构造好训练数据之后，就是训练一个常规的序列标注模型，作者输入使用ELMo训练一个双层的LSTM模型，然后计算每个位置被选中的概率。

2.Bottom-Up Copy Attention

作者发现encoder直接对原本编码可以有更好的效果。所以，在训练阶段，分别训练pointer-generator model 和内容选择器 。在推理阶段，首先计算source中所有token的选择概率 $q_{1:n}$ ，然后用它来影响copy模型中的copy概率，使得没有被选中的token不会被copy。令 $a^i_j$ 表示在step j对source中iword的copy概率，经过调整之后的概率为，其中 $\epsilon$ 是一个阈值，取值在0.1-0.2之间：