Mecanismo de atención de BoTNet: implementación de pytorch

Portal de tesis: Transformadores de cuello de botella para el reconocimiento visualArtículo
anterior: Modelo ViT: implementación de pytorch

Propósito de BoTNet:

Agregar mecanismo de atención a la red .

El método de BoTNet:

En ResNet, reemplace ResNet Bottleneck con Bottleneck Transformer .
El enfoque de BotNet

La estructura de BoT:

Izquierda: estructura de transformador estándar;
centro: estructura de transformador de cuello de botella (BoT);
derecha: ejemplo de aplicación de bot en ResNet.
Estructura del transformador de cuello de botella

La estructura de BotNet-50:

En comparación con ResNet-50, la estructura residual de la etapa c5 se reemplaza por la estructura BoT.
Estructura de BoTNet-50

La estructura de la MHSA:

Estructura de autoatención de varios cabezales, consulte: La atención es todo lo que necesita .
Nota: Presente el módulo Incrustación de posición para agregar información de posición para llamar la atención .
inserte la descripción de la imagen aquí

Incrustación de posición:

El autor presenta el módulo Codificaciones de posición relativa (incrustación) en MHSA.
Codificación de posición relativa
El autor realizó un experimento de ablación, comparó el rendimiento del modelo de Codificaciones sin posición / Codificaciones de posición relativa / Codificaciones de posición absoluta y diferentes métodos de adición, y finalmente encontró que qk T + qrelative T qk^T + qr^T_{relative}qk _T+q rrelativo _ _ _ _ _ _Tfunciona mejor.
Codificaciones de posición

Supongo que te gusta

Origin blog.csdn.net/Peach_____/article/details/129066191
Recomendado
Clasificación