主流序列转导模型基于复杂的循环神经网络或卷积神经网络，这些神经网络包含一个编码器和一个解码器。性能最好的模型还通过attention机制将编码器和解码器连接起来。本文提出一种新的简单的网络架构Transformer，仅基于attention机制并完全避免循环和卷积。经过实验和表明，该模型能够取得更好的性能，训练时间也较短。同时这种模型结构可以避免循环并完全依赖于attention机制来绘制输入和输出之间的全局依赖关系，容易并行化。

三、模型架构

大部分神经序列转导模型都有一个编码器-解码器结构。这里，编码器映射一个用符号表示的输入序列(x1,...,xn) 到一个连续的表示z = (z1,...,zn)。根据z，解码器生成符号的一个输出序列(y1,...,ym) ，一次一个元素。在每一步中，模型都是自回归的[10]，当生成下一个时，使用先前生成的符号作为附加输入。
Transformer遵循这种整体架构，编码器和解码器都使用self-attention堆叠和point-wise、全连接层。

3.1 编码器和解码器堆栈

3.1.1 编码器

编码器由N = 6 个完全相同的层堆叠而成。每一层都有两个子层。第一个子层是一个multi-head self-attention机制，第二个子层是一个简单的、位置完全连接的前馈网络。我们对每个子层再采用一个残差连接，接着进行层标准化。也就是说，每个子层的输出是LayerNorm(x + Sublayer(x))，其中Sublayer(x) 是由子层本身实现的函数。为了方便这些残差连接，模型中的所有子层以及嵌入层产生的输出维度都为dmodel = 512。

3.1.2 解码器

解码器同样由N = 6 个完全相同的层堆叠而成。除了每个编码器层中的两个子层之外，解码器还插入第三个子层，该层对编码器堆栈的输出执行multi-head attention。与编码器类似，在每个子层再采用残差连接，然后进行层标准化。本文还修改解码器堆栈中的self-attention子层，以防止位置关注到后面的位置。这种掩码结合将输出嵌入偏移一个位置，确保对位置的预测 i 只能依赖小于i 的已知输出。

3.2 Attention

Attention函数将一个query和一组key-value对映射到一个输出，其中query key value都是向量。输出是对value求加权和，权值(attention weight)是将query与每个value对应的key通过匹配性函数(compatibility function)计算得到。

3.2.1 缩放版的点积attention

如图所示，本文将这种特殊的attention为“缩放版的点积attention”。输入由query、dk 维的key和dv 维的value组成。之后计算query和所有key的点积、用 $\sqrt{dx}$ 相除，然后应用一个softmax函数以获得值的权重。

在实践中，本文同时计算一组query的attention函数，并将它们组合成一个矩阵Q。 key和value也一起打包成矩阵 K 和 V 。计算输出矩阵为：

两个最常用的attention函数是加法attention和点积（乘法）attention。除了缩放因子1/ $\sqrt{dx}$

之外，点积attention与本文的算法相同。加法attention使用具有单个隐藏层的前馈网络计算兼容性函数。虽然两者在理论上的复杂性相似，但在实践中点积attention的速度更快、更节省空间，因为它可以使用高度优化的矩阵乘法代码来实现。

当dk的值比较小的时候，这两个机制的性能相差相近，当dk比较大时，加法attention比不带缩放的点积attention性能好。可以看出，对于很大的dk值，点积大幅度增长，将softmax函数推向具有极小梯度的区域。为了抵消这种影响，我们缩小点积为原值的1/ $\sqrt{dx}$ 。

3.2.2 Multi-Head Attention

作者发现将query、key和value分别用不同的、学到的线性映射h倍到dk、dk和dv维效果更好，而不是用dmodel维的query、key和value执行单个attention函数。基于每个映射版本的query、key和value，我们并行执行attention函数，产生dv 维输出值。将它们连接并再次映射，产生最终值，如图所示。

Multi-head attention允许模型的不同表示子空间共同关注不同位置的信息。如果只有一个attention head，它的平均值会抑制这个信息。

其中，映射为参数矩阵 WiQ ∈ ℝdmodel×dk ,

WiK ∈ ℝdmodel×dk ,

WiV ∈ ℝdmodel×dv

W O ∈ ℝhdv×dmodel。

在这项工作中，采用h=8 个并行attention层或head。对每个head，使用dk=dv=dmodel / h=64。由于每个head的大小减小，总的计算成本与具有全部维度的单个head attention相似。

3.2.3 Attention在模型中的应用

Transformer使用以3种方式使用multi-head attention：

1、在“编码器—解码器attention”层，query来自上面的解码器层，key和value来自编码器的输出。这允许解码器中的每个位置能关注到输入序列中的所有位置。这模仿序列到序列模型中典型的编码器—解码器的attention机制。

2、编码器包含self-attention层。在self-attention层中，所有的key、value和query来自同一个地方，在这里是编码器中前一层的输出。编码器中的每个位置都可以关注编码器上一层的所有位置。

3、类似地，解码器中的self-attention层允许解码器中的每个位置都关注解码器中直到并包括该位置的所有位置。我们需要防止解码器中的向左信息流来保持自回归属性。通过屏蔽softmax的输入中所有不合法连接的值（设置为-∞），我们在缩放版的点积attention中实现。

3.3 基于位置的前馈网络

除了attention子层之外，本文的编码器和解码器中的每个层都包含一个完全连接的前馈网络，该前馈网络单独且相同地应用于每个位置。它由两个线性变换组成，之间有一个ReLU激活。

尽管线性变换在不同位置上是相同的，但它们层与层之间使用不同的参数。它的另一种描述方式是两个内核大小为1的卷积。输入和输出的维度为dmodel = 512，内部层的维度为dff = 2048。

3.4 嵌入和Softmax

与其他序列转导模型类似，本文使用学习到的嵌入将输入词符和输出词符转换为维度为dmodel的向量。本文还使用普通的线性变换和softmax函数将解码器输出转换为预测的下一个词符的概率。在本文的模型中，两个嵌入层之间和pre-softmax线性变换共享相同的权重矩阵。在嵌入层中，本文将这些权重乘以 $\sqrt{dmodel}$ 。

四、训练模型

4.1 训练参数

本文在标准的WMT 2014英语-德语数据集上进行了训练，其中包含约450万个句子对。这些句子使用字节对进行编码，源语句和目标语句共享大约37000个词符的词汇表。对于英语-法语翻译，我们使用大得多的WMT 2014英法数据集，它包含3600万个句子，并将词符分成32000个word-piece词汇表。序列长度相近的句子一起进行批处理。每个训练批次的句子对包含大约25000个源词符和25000个目标词符。

4.2 硬件信息

本文在一台具有8个NVIDIA P100 GPU的机器上训练我们的模型。使用本文描述的超参数的基础模型，每个训练步骤耗时约0.4秒。我们的基础模型共训练了10万步或12小时。 For our big models,(described on the bottom line of table 3), step time was 1.0 seconds. 大模型训练了30万步（3.5天）。

4.3 优化器

本文使用Adam优化器，其中β1 = 0.9, β2 = 0.98及ϵ= 10-9。

五、实验结果

5.1 机器翻译

从上表可以看出，在WMT 2014英语-德语翻译任务中，大型transformer模型比以前报道的最佳模型（包括整合模型）高出2.0 个BLEU以上，确立了一个全新的最高BLEU分数为28.4。该模型的配置列在下表的底部。训练在8 个P100 GPU上花费3.5 天。本文的基础模型也超过了以前发布的所有模型和整合模型，且训练成本只是这些模型的一小部分。

5.2 模型的变体

为了评估Transformer不同组件的重要性，我们以不同的方式改变我们的基础模型，测量开发集newstest2013上英文-德文翻译的性能变化。我们使用前一节所述的beam搜索，但没有平均检查点。

在上表的行（A）中，我们改变attention head的数量和attention key和value的维度，保持计算量不变。虽然只有一个head attention比最佳设置差0.9 BLEU，但质量也随着head太多而下降。

在表上行（B）中，我们观察到减小key的大小dk会有损模型质量。这表明确定兼容性并不容易，并且比点积更复杂的兼容性函数可能更有用。我们在行（C）和（D）中进一步观察到，如预期的那样，更大的模型更好，并且丢弃对避免过度拟合非常有帮助。在行（E）中，我们用学习到的位置嵌入[来替换我们的正弦位置编码，并观察到与基本模型几乎相同的结果。

六、结论

在这项工作中本文提出了Transformer，第一个完全基于注意力机制的序列转导模型，用multi-headed self-attention取代了编码器-解码器架构中最常用的循环层。

对于翻译任务，Transformer可以比基于循环或卷积层的体系结构训练更快。在WMT 2014英语-德语和WMT 2014英语-法语翻译任务中，本文取得了最好的结果。在前面的任务中，本文最好的模型甚至胜过以前报道过的所有整合模型。

论文阅读《Attention is all you need》

一、文章贡献

二、简介