Document d'apprentissage en profondeur : Repenser le bloc mobile pour des modèles efficaces basés sur l'attention et sa mise en œuvre de PyTorch

Document d'apprentissage en profondeur : Repenser le bloc mobile pour des modèles efficaces basés sur l'attention et sa mise en œuvre de PyTorch
Repenser le bloc mobile pour des modèles efficaces basés sur l'attention
PDF : https://arxiv.org/pdf/2301.01146.pdf
Code PyTorch : https://github. com/shanglianlm0525/CvPytorch
Code PyTorch : https://github.com/shanglianlm0525/PyTorch-Networks

1. Vue d'ensemble

EMO est un modèle efficace et léger permettant d'atteindre un équilibre entre les paramètres, les FLOP et les performances, adapté aux tâches de prédiction denses. En partant de la perspective unifiée des composants efficaces du bloc résiduel inversé (IRB) et du transformateur, l'article étend l'IRB basé sur CNN au modèle basé sur l'attention et résume un bloc mobile d'unité résiduelle unique pour la conception de modèles légers (MMB). .
Insérer la description de l'image ici
EMO propose une nouvelle idée de conception de modèles légers, permettant d'obtenir des performances de modèle efficaces en unifiant les composants efficaces de CNN et de Transformer. Un grand nombre d'expériences ont vérifié l'efficacité et la supériorité de la méthode proposée.

2 Modèle efficace ResNetlike (EMO)

2-1 Critères pour un modèle efficace général

Lors de la conception d'un modèle visuel efficace pour les applications mobiles, les quatre critères suivants sont proposés, c'est-à-dire qu'un modèle efficace doit satisfaire autant que possible :

  • ➀Disponibilité d'utilisabilité. L'implémentation simple n'utilise pas d'opérateurs complexes et est facile à optimiser pour les applications.
  • ➁Uniformité Uniformité. Le moins de modules de base possible pour réduire la complexité du modèle et accélérer le déploiement.
  • ➂Efficacité efficacité. Bonnes performances pour la classification et la prédiction dense.
  • ➃Efficacité. Il y a moins de paramètres et de calculs, mais il y a un compromis en termes de précision.

Insérer la description de l'image ici

2-2 Bloc méta mobile

En faisant abstraction du bloc résiduel inversé dans MobileNetv2 et des modules de base MHSA et FFN dans Transformer, un bloc Meta Mobile (M2) unifié est proposé pour représenter uniformément la structure ci-dessus. En utilisant le taux d'expansion des paramètres λ et les opérateurs efficaces F pour instancier différents modules. .
Insérer la description de l'image ici
Saisissez X (∈ RC × H × W) sous forme d'image X (∈ R^{C×H×W})X R.C × H × W )par exemple, MMB utilise d'abord leMLP étendu e MLP_{e}M L PePour étendre la dimension du canal, le rapport sortie/entrée est λ :
Insérer la description de l'image ici
Ensuite, l'opérateur intermédiaire F améliore encore les caractéristiques de l'image, telles que l'opérateur d'identité, la convolution statique, le MHSA dynamique, etc. Considérant que MMB convient à une conception de réseau efficace, nous formulons le concept de F en tant qu'opérateur efficace, exprimé comme suit : Enfin, un MLP contracté s MLP_{s}
Insérer la description de l'image ici
utilisant un rapport entrée/sortie inversé de λM L PsPour réduire la dimension du canal :
Insérer la description de l'image ici
où, la connexion résiduelle est utilisée pour obtenir la sortie finale Y = X + X s (∈ RC × H × W) Y = X + X_{s} (∈ R^{C×H×W} )Oui=X+XsR.C × H × L

2-3 Micro-conception : bloc mobile résiduel inversé

Sur la base du Meta Mobile Block, un bloc mobile résiduel inverse (iRMB) est conçu, qui absorbe l'efficacité de l'architecture CNN pour modéliser les caractéristiques locales et la capacité de modélisation dynamique de l'architecture Transformer pour apprendre les interactions longue distance. La structure est la suivante : Insérer la description de l'image ici
dans l'implémentation spécifique, F dans iRMB est modélisé sous forme de convolutions EW-MHSA et DW-Conv en cascade.
Insérer la description de l'image ici

2-4 Conception macro d'EMO pour une prédiction dense

Sur la base des normes ci-dessus, l'auteur a conçu un modèle efficace similaire à ResNet - EMO, empilé par plusieurs modules iRMB, qui se reflète principalement dans les avantages suivants :

1) Dans l'ensemble, EMO n'est composé que d'iRMB et ne dispose pas de modules diversifiés, ce qui peut être considéré comme simple en termes de design thinking ;

2) Pour un module spécifique, iRMB consiste uniquement en une convolution standard et une auto-attention multi-têtes, sans autres opérateurs complexes. De plus, bénéficiant de DW-Conv, iRMB peut également adapter l'opération de sous-échantillonnage en fonction de la taille du pas et ne nécessite aucune intégration de position pour introduire un biais de position dans MHSA ;

3) Pour les variantes de configuration du réseau, l'auteur utilise un taux d'expansion et un nombre de canaux qui augmentent progressivement, et la configuration détaillée est présentée dans le tableau ci-dessous.
Insérer la description de l'image ici

3 expériences

Insérer la description de l'image ici
Insérer la description de l'image ici

Guess you like

Origin blog.csdn.net/shanglianlm/article/details/132736429