指针生成网络 Pointer-Generator《Get To The Point: Summarization with Pointer-Generator Networks》论文阅读笔记

《Get To The Point: Summarization with Pointer-Generator Networks》

Introduction

复现

上篇论文《(Copynet)Incorporating Copying Mechanism in Sequence-to-Sequence Learning》模型与此比较相似,主要用在摘要和对话系统,不过其网络结构比较复杂,混合概率是两者的和(而且目标词属于类别的打分是一个“分段函数”)。

最近看的指针生成网络,其混合概率直接就是decoder端的softmax加上源端的attention分布,而且还有赖于权重   p g e n \ p_{gen} ,该值属于0~1,越大,表示越依赖生成部分。

本篇的架构仍然是五部分:

  • Motivation
  • Model
  • Experiment
  • Discussion
  • Question

1、Motivation

Seq2Seq的模型结构在摘要的生成方面提供了可能,但是他们有三个缺点,一是无法生成OOV,只能生成词汇表的词;二是会产生错误的事实,比如姓名之间,Amy可能变成Bob;三是自我重复,如German beat German beat German beat …可见下图。
在这里插入图片描述
在这里插入图片描述
由此,文章提出两种思路解决上述问题。

  • 首先使用一种混合的指针生成网络,他能够从源端复制单词,也能够从词表当中去生成词语。这一点和copynet相似。
  • 第二,就是使用coverage,去追踪那些已经被总结的单词,以至于不会重复生成。

2、Model

2.1 Base-line

在这里插入图片描述
如上图所示,每一个词在编码端,经过双向LSTM,在解码端编码层的隐藏状态和解码端的隐藏状态,做一个加法attention。如公式(1)(2):
在这里插入图片描述
得到上下文向量   h t \ h_{t}^*
在这里插入图片描述
由上下文向量和解码端的隐层状态,经过两层线性层,得到最后的词表概率分布,   P v o c a b \ P_{vocab}
在这里插入图片描述
在预测阶段选择概率最大的那个词,作为解码端的输出。在训练的时候,通过求负的对数函数,得到损失函数,令损失函数最小。
在这里插入图片描述
在这里插入图片描述

2.2 pointer generator model

在这里插入图片描述
在这里插入图片描述
指针生成网络是baseline和指针网络的混合,它可以通过指向去复制,也可以从固定的词表当中去生成词汇。注意力分布的计算和上下文向量的计算不变。

多增加了一个生成概率,属于0~1。对于每一个解码时刻,都存在一个这样由上下文向量,解码状态隐藏层和解码的输入共同计算的概率。可见Figure 3中的2-0。
在这里插入图片描述
最后词   w \ w 的概率由词表概率和源端的attention分布共同获得,如果   w \ w 未在源端出现,则   a \ a 为 0。在预测阶段,输出一个概率分布,其维度是词表长度加上源端句子中未出现在词表中的单词个数。
在这里插入图片描述

2.3 coverage mechanism

在序列到序列的模型当中,重复是一个普遍的问题,尤其是在长文本摘要生成任务当中。在我们的coverage模型当中,文章使用一个coverage向量   c t \ c^t ,其代表了当前解码时刻,t之前的所有注意力分布的和。
在这里插入图片描述
  c 0 \ c^0 是个零向量,在计算attention得分的时候,我们将词向量作为新的输入。
在这里插入图片描述
并且也需要增加loss惩罚项:
在这里插入图片描述
在这里插入图片描述

这里可以这么理解,以第一时刻为例,c1表示的是a0,那么a0跟a1当中选择最小的作为loss。如果a0和a1关注的都是同样的分布,那么loss就会比较大,如果他们关注的是不同的分布,因为选择的是两者之中最小的那一个,所以这样的loss会比较小。目的就是想让他每一个时刻关注的分布是不一样的,这样可以避免repeat。

3、Experiment

在这里插入图片描述
对于指针网络使用的词表大小是50k,因为它能够去处理OOV问题,所以比这篇文章Nallapati et al.’s(2016)150k源和60k目标端词表要小。但是在baseline模型中,还是用了50k和150k以便比较,然而发现并没有提高评价指标。

除此,指针网络的训练参数也少了很多,the baseline model has 21,499,600 parameters, the pointer-generator adds 1153 extra parameters (wh∗, ws, wx and bptr in equation 8), and coverage adds 512 extra parameters

这一点并不是很理解。

另外,对于coverage的训练,并不是从第一轮就加入coverage loss,作者也进行了这个实验,发现从第一轮就加入该loss,效果不好。训练的时候,在后期才增加了coverage model,多训练了300轮,loss也要加上,不然效果也不明显。这个就比较神奇了,第二点不理解。

下图是各种模型预测结果的n-gram重复比,发现加了coverage的确实重复比例小很多。
在这里插入图片描述

4、Discussion

优点:

  • 是一种混合的方法,既考虑了复制,又考虑了生成,而且还有coverage,能够去减少重复文本的产生
  • 模型明了,不像copynet那样,但和copynet思路上有点相似。
  • 作为一种生成式的摘要,相比以往的抽取式摘要,确实有了很大进步

缺点:

  • 直接用文章的前三句话,效果更好,这可能和英文的表达方式有关,总结性的话往往在最开始。如何解决这个问题?
  • 参考摘要也是人做出来的,比较具有主观性,有时候生成的摘要完全是正确的,但是和参考摘要去匹配却,只能得到比较低的分。这种评测指标的改进,也是需要被考虑的。

Question

1.指针网络的训练参数也少了很多?why?

2.coverage的训练,并不是从第一轮就加入coverage loss。why?

3.Table1的最后一句话,The METEOR improvement
from the 50k baseline to the pointer-generator model,
and from the pointer-generator to the pointer-generator+coverage model, were both found to be
statistically significant using an approximate
randomization test with p < 0:01.
说使用p <0.01的近似随机化检验发现它们均具有统计学意义 是什么意思。

4.有文章第六页右边开始,说道,For training,
we found it efficient to start with highly-truncated
sequences, then raise the maximum length once
converged.
也不是很理解。

5.文章第9页还提到关于这个生成概率p,在训练的时候,会从0.3逐渐上升到0.53。这说明模型一开始是复制,然后学会去以一半的概率生成。然而在测试阶段,会有一个0.17的平均值。

这个生成概率p难道不是在训练的时候训练好了就固定了,为什么在测试阶段还会变化?

文章给的解释是说,因为在训练的时候会有word by word的监督,但是在测试的时候没有。不是很理解。

猜你喜欢

转载自blog.csdn.net/ganxiwu9686/article/details/87521054