Transformer、多头自注意力机制论文笔记：Attention is all you need

论文中心思想：提出了一种只使用注意力机制的模型，模型中没有结合任何RNN或CNN，通过encoder--decoder的模型实现出了一种强力有效的模型。

引言与背景

在注意力机制诞生后，诞生了多种改进的模型，但是这些模型一般都是把注意力机制与循环神经网络结合（包括一些改良的，如LSTM），但是这些模型有个弊端，就是并行计算能力不强，为解决这一些问题，论文提出了一种仅基于注意力机制的模型，具有强大的并行计算性以及效果很好。

模型结构

总的模型结构为encoder-decoder，在编码器中，把符号表示的输入序列 $(x_1,x_2,...,x_n)$ 映射为连续的表示 $z = (z_1,...,z_n)$ ，得到了z之后，解码器生成符号输出序列 $(y_1,...,y_n)$ ，一次一个地生成。

模型结构图：

编码解码器：

Encoder：编码器由6层一样的层组成，每一层有两个子层。第一层是一个多头自注意力机制，另一层是一个简单的全连接前馈网络。在标准化层之后，这两层各自都采用一个残差连接，每一个子层的输出是 $LayerNorm(x+Sulayer(x))$ ,其中 $Sublayer(x)$ 是子层本身实现的函数。为了优化这些残差裂解，模型中的所有子层以及嵌入层都生成维度512的输出。

Decoder：解码器也是6层一样的层组成的，出来2个在每个编码器中的子层，第三个是在编码器输出后面的一个多头自注意力层。与编码器类似，每一个子层标准化后都用一个残差连接包围。还有一个为了保证序列信息的掩盖层。

注意力

一个注意力函数其实就是把一个query，一个key-value的集合（关于query，key，value可以看这篇论文：Key-Value Memory Networks for Directly Reading Documents）映射成一个输出，其中query，key，value，output都是向量。输出其实是values的加权求和，其中分配给每个值的权重通过一个相关函数计算query与当前key的相关程度。