由于讲解如何搭建Encoder和Decoder的文章有很多,因此本节将围绕为什么做分析而非怎么做。主要涉及到几个细节问题:Encoder中Add操作及目的、Norm操作及目的、不用Norm可不可以、为什么将BN不用于transformer任务、Feed Forward操作及目的、Positional Encoding的原理和进化、Decoder中Object query机理。
Encoder分解之Add & Norm
- Add操作:Add在Encoder中是一种残差连接,指 X + Multi-Head Self-Attention(X) 和 X + Feed Forward(X)。其 ResNet 所用的是相同结构