通过7个版本的attention的变形,搞懂transformer多头注意力机制

——1——

Transformer模型架构

Transformer 由两个独立的模块组成,即Encoder和Decoder

Encoder

编码器是一个堆叠N个相同的层。每层由两个子层组成,第一个是多头自注意力机制,第二个是简单的全连接的前馈神经网络。论文的作者还使用了ADD&Norm的残差连接与归一化操作

Encoder

当然,输入数据需要经过word-embedding与位置编码后,然后再传递给多头注意力机制,当然关于位置编码与详细的word-embedding操作可以参考如下动画视频教程,使用矩阵变化动画来讲解位置编码与word-embedding

Decoder

解码器层与编码器类似,都是堆叠N个相同的层,但是解码器每层有三个子层组成

猜你喜欢

转载自blog.csdn.net/weixin_44782294/article/details/127479859