Portal de tesis: Transformadores de cuello de botella para el reconocimiento visualArtículo
anterior: Modelo ViT: implementación de pytorch
Propósito de BoTNet:
Agregar mecanismo de atención a la red .
El método de BoTNet:
En ResNet, reemplace ResNet Bottleneck con Bottleneck Transformer .
La estructura de BoT:
Izquierda: estructura de transformador estándar;
centro: estructura de transformador de cuello de botella (BoT);
derecha: ejemplo de aplicación de bot en ResNet.
La estructura de BotNet-50:
En comparación con ResNet-50, la estructura residual de la etapa c5 se reemplaza por la estructura BoT.
La estructura de la MHSA:
Estructura de autoatención de varios cabezales, consulte: La atención es todo lo que necesita .
Nota: Presente el módulo Incrustación de posición para agregar información de posición para llamar la atención .
Incrustación de posición:
El autor presenta el módulo Codificaciones de posición relativa (incrustación) en MHSA.
El autor realizó un experimento de ablación, comparó el rendimiento del modelo de Codificaciones sin posición / Codificaciones de posición relativa / Codificaciones de posición absoluta y diferentes métodos de adición, y finalmente encontró que qk T + qrelative T qk^T + qr^T_{relative}qk _T+q rrelativo _ _ _ _ _ _Tfunciona mejor.