Transformer-Encoder & Decoder细节详解(以DETR为例)

由于讲解如何搭建Encoder和Decoder的文章有很多,因此本节将围绕为什么做分析而非怎么做。主要涉及到几个细节问题:Encoder中Add操作及目的、Norm操作及目的、不用Norm可不可以、为什么将BN不用于transformer任务、Feed Forward操作及目的、Positional Encoding的原理和进化、Decoder中Object query机理

Encoder分解之Add & Norm

  • Add操作Add在Encoder中是一种残差连接,指 + Multi-Head Self-Attention(X) 和 + Feed Forward(X)。其 ResNet 所用的是相同结构

猜你喜欢

转载自blog.csdn.net/qq_42308217/article/details/122382585