Attention-based NMT

this is for my baby

摘要部分:

注意力机制通过有选择的关注原句子的部分来提高翻译,但是对有用的注意力机制体系结构的探索很少.这篇文章阐述两种简单有效的类:一种是所有源单词参与的全局方法,另一种是每一次只看全集一个子集单词的方法.我们在WMT(写入磁带Write Magnetic Tape)上面把英语翻译成德语证明了它的效率.局部注意力方法比无注意力系统能提高5bleu分.我们全局模型使用不同的注意力结构得到了一个最高的结果,在WMT中把英语翻译成德语得到25.9bleu分,比最好的现有的模型高了1bleu分.

bleu解释:

(解释一下，首先bleu是一种文本评估算法，它是用来评估机器翻译跟专业人工翻译之间的对应关系，核心思想就是机器翻译越接近专业人工翻译，质量就越好，经过bleu算法得出的分数可以作为机器翻译质量的其中一个指标)

https://www.jianshu.com/p/15c22fadcba5

介绍部分:

NMT优点所需知识集很小和概念简单,先读取所有源词直到遇到了句子中止标志,然后每次发射一个目标单词,如图一

图1 神经机器翻译-一种用来把原句ABCD翻译成目标句子XYZ的堆叠循环结构。这里，<eos>标志着句子的结束。

NMT通常是一个用端到端方式训练的大型神经网络，并且具有归纳长字序列的能力。这意味着这个模型不必像标准机器翻译（MT）那样显式存储巨大的短语表和语言模型；因此，NMT的内存占用较小。最后，不同于标准MT中的高度复杂的解码器，实现NMT解码器很容易（Koehn et al.,2003）。

特别的,“注意”的概念最近在训练神经网络中很流行，这使得模型能够学习不同模态之间的校准。例如，在动态控制问题中图像对象和代理操作之间的校准, 语音识别任务中语音帧和文本之间的校准(Chorowskiet al.,2014)，或图像字幕生成任务中图像视觉特征与文本描述之间的校准(Xu et al., 2015)。在NMT的研究领域中，Bahdanau 等人已经成功地把这种注意机制应用到了联合翻译和对齐单词中。据我们所知，除此之外，再无其他研究基于注意的NMT架构的工作了。

这篇文章中,我们设计两种类型的基于注意力的模型,一种所有源词都参加的全局方法,一种每一次只考虑一个子集的局部方法,第一个方法和Bahdanau的方法相似,但是比他的简单,局部的方法是一个硬性和软性混合的注意力方法,比全局计算复杂度低,因为局部注意力方法可导,所以比硬性注意力更简单,除此之外,我们还为我们的基于注意力的模型验证了各种对齐函数.

实验上,我们验证了我们的方法的效率在英语和德语的互翻译上,我们的模型在WMT的翻译工作上比无注意力系统提高了5分.

2 神经机器翻译

一个神经机器翻译系统是一个直接建立将源语句翻译成目标语句的条件概率的神经网络.一个基本的NMT包含两部分组成,计算每个源句的表示的编码器和每次生成一个目标单词的解码器

在解码器中对这种分解建模的一个很自然的选择是使用循环神经网路RNN结构,这个结构是近期的一系列NMT研究（如Kalchbrennerand Blunsom, 2013;Sutskever et al., 2014; Cho et al., 2014; Bahdanau et al.,2015; Luong et al.,2015; Jean et al., 2015）都用到的.然而,它们在解码器中用RNN结构不尽相同,在编码器计算源语句的表示s时,方法也不同.

Kalchbrenner 和 Blunsom(2013)在解码时用了具有标准隐藏单元的RNN，在给源语句编码时用了卷积神经网络。另一方面，Sutskever etal. (2014) 和Luong et al. (2015)在编码和解码中配合长短期记忆(Long Short-Term Memory,LSTM)隐藏单元，堆叠了多层RNN。Cho et al.(2014),Bahdanau et al. (2015), 和 Jean et al. (2015)都在编码和解码中用了具有LSTM激励的隐藏单元的不同版本的RNN。

在这篇paper里面用到了层叠LSTM结构,如图一所示,用到了LSTM单元.训练目标函数(4)

3.基于注意力模型

基于注意力的模型大致被分为两类，全局和局部。这两个种类的区别在于“注意力”被放置于所有的源位置还只被放置于一小部分源位置。我们分别在图2，图3中描述了这两个模型。

图2 全局注意模型—在每个时间节点，模型根据当前目标状态和所有的源状态得出一个变长对齐权重向量。然后一个全局上下文向量作为所有源状态的加权平均（权重为）算出。

图3 局部注意模型—模型首先针对当前目标单词预测一个单对齐位置。然后以源位置为中心的窗被用于计算上下文向量，窗内源隐层的加权平均。权重通过当前目标状态和窗内的源状态得到。

这两个模型的共同点是，在每个时刻t的解码过程中，二者都输入位于层叠LSTM顶层的隐层ht。其目标是得到上下文向量ct，所含的对应的源语言端信息有助于预测当前目标语言单词yt。虽然这些模型得到上下文向量ct的方式有所不同，它们接下来的步骤都是相同的。

特别地，根据目标隐层ht和源语言端上下文向量ct，我们设置了一个简单连接层来结合两个向量的信息，从而产生如下所示的注意力隐层：

3.1全局注意

全局注意模型的思想是，在生成上下文向量ct时考虑编码器的所有隐层。在这个模型中，通过比较当前目标隐层ht与每个源隐层 $\overline{h_{t}}$ ，得到一个大小等于源语言端时刻数的可变长度的对齐向量at：

除此之外，在我们早期建立基于注意力模型的尝试中，我们使用了基于位置的函数，在这个函数中，对齐分数只通过目标隐层计算：

设置对齐向量为权重，上下文向量通过源隐层的加权平均得到。

与（Bahdanau et al.,2015）比起来—虽然我们的全局注意力模型在本质上与Bahdanau等人提出的相似，我们的模型也有几个重要的不同点，这些不同反映了我们如何根据原始模型得到了简化模型和全局模型。首先，我们在编码和解码器中都仅仅用了LSTM顶层的隐藏状态，如图2所示。而Bahdanau et al.(2015)在双向编码器中用了源隐层状态的前向和反向级联，在非堆叠无向解码器中用了目标隐层状态。第二，我们的计算路径更加简便；我们的计算路径是ht->at->ct-> $\overline{h_{t}}$ ，然后用公式5和公式6和图2做预测。而在任一时刻t，Bahdanau et al.(2015)开始于上一个隐层ht-1->at->ct->ht，因此，在作出预测前经历了一个深度输出和maxout层。最后，Bahdanau et al.(2015)只针对concat这一种对齐函数做了试验；而我们会在随后证明其他计算方法更好。

3.2局部注意

全局注意有一个缺陷，其针对每一个目标单词都要考虑源端的所有单词。这种做法的内存消耗很大，还可能会导致其在翻译长序列（段落或文件）时不实用。为了克服这一缺陷，我们提出了局部注意机制，它对每个目标单词，只关注源端的一小部分单词。

这个模型的灵感来自于Xu et al.(2015)对图像标题产生任务的处理：软性和硬性注意模型的结合。在他们的工作中，软性注意对应全局注意，权重被“软性地”放置在源图的每个分块上。而硬性注意每个时间点只选择关注一个图像分块。即便大大缩短了推算时间，硬性注意还是有很多缺点：它不可导，而且需要如方差降低或强化学习这样复杂的训练技巧。

我们的局部注意机制有选择地关注于小范围的上下文，而且是可导的。这种方法有如下优点：它避免了软性注意中庞大的计算，同时，它比硬性方法更易训练。具体而言，这个模型在时刻t首先为每个目标单词产生一个对齐位置ct。然后，上下文向量作为在范围[pt-D,pt+D]内的源隐层状态的加权平均，被计算出来；D是人为选取的。不像全局方法，局部对齐向量现在是固定维度,下面我们考虑此模型的两个变体：

单调对齐（local-m）—我们简单地设pt=t，假设源句和目标句大致上是单调对齐的。对齐向量at由公式7定义。

预测对齐（local-p）—不设两个句子单调对齐，我们的模型按照以下方式预测对齐位置：

与(Gregor et al.,2015)相比—他们针对图像生成提出了一个选择性注意力模型，与我们的局部注意相似。他们让模型在不同位置和焦距中选择一块图像。然而，我们对所有的目标位置使用了同样的“焦距"，在极大简化公式的情况下仍然得到了好的结果。

图4 输入反馈方法—注意力向量被反馈到下一时刻的输入，从而告知模型过去的对齐信息。

3.3输入馈送方法

在我们提出的全局和局部方法中，注意力是独立决策的，它的决策是次优的。然而，在标准机器翻译MT中，通常有一个保存了翻译过程中已经被翻译过的源单词的覆盖集。相似地，在基于注意力的神经机器NMT翻译中，对齐决策应该联合地考虑过去的对齐信息。为了达到这一点，我们提出了一种输入馈送方法，在这种方法中，注意力向量 $\overline{h_{t}}$ 连接了下一时刻的输入（如图4所示）。这样的连接有双重影响：（a）我们希望模型完全知道之前的对齐选择（b）我们创造了一个在水平和垂直方向都非常深的网络。

与其他方法相比—Bahdanau et al.(2015)用了与我们模型中的相似的上下文向量ct来构造后续隐层状态，这样也能达到“覆盖集”的效果。然而，他们没有对这种连接的有效性作分析。我们的模型更具有通用性；如图4所示，模型可用于很多层叠循环结构，包括非注意力模型。

Xu et al. (2015)提出了一种双注意力模型，将附加约束添加到训练目标以确保模型在字幕生成过程中平等看待图像的所有部分。这样的约束也可以用于捕获我们前面提到的神经机器翻译NMT中的覆盖集效应。然而，我们选择用输入馈送模型，因为它为模型提供了灵活性，可以决定它认为合适的任何注意力约束。

https://www.jianshu.com/p/92fef49666de

http://polarlion.github.io/nmt/2016/04/29/dl-for-mt.html

https://blog.csdn.net/yujianmin1990/article/details/81432851

https://baijiahao.baidu.com/s?id=1553672695309574&wfr=spider&for=pc

https://blog.csdn.net/wangxinginnlp/article/details/52944649

https://www.itency.com/topic/show.do?id=570315

https://yq.aliyun.com/articles/174756

https://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/80652382

https://www.imooc.com/article/35417

https://blog.csdn.net/jdbc/article/details/52948351

http://www.dataguru.cn/article-12415-1.html

https://www.sohu.com/a/226543293_642762

猜你喜欢