[Document papier] Transformateur de flux interattentionnel pour un flux optique robuste (CVPR 2022)

1. Brève introduction du document

1. Premier auteur : Xiuchao Sui, Shaohua Li

2. Année de parution : 2021

3. Publier la revue : arxiv

4. Mots-clés : flux optique, transformateur, auto-attention, attention croisée, volume de corrélation

5. Motivation d'exploration : en raison de la localité et des poids rigides de la convolution, des informations contextuelles limitées sont incorporées dans les caractéristiques des pixels, et la corrélation calculée est si aléatoire que la plupart des valeurs de corrélation élevées sont de fausses correspondances, il est donc difficile à gérer. grands déplacements avec motion blur.

  1. Bien que les méthodes les plus récentes soient très précises sur les données de référence, dans certaines conditions, telles que les déplacements importants avec flou de mouvement , les erreurs de flux peuvent encore être importantes.
  2. Le paradigme actuel calcule la similarité des pixels par paires comme le produit scalaire de deux vecteurs caractéristiques convolutionnels. En raison de la localité et des poids rigides de la convolution, des informations contextuelles limitées sont incorporées dans les caractéristiques des pixels, et les corrélations calculées souffrent d'un niveau élevé de caractère aléatoire, de sorte que la plupart des valeurs de corrélation élevées sont des correspondances erronées. Les bruits dans les corrélations augmentent avec les bruits dans les images d'entrée, tels que la perte de texture, les variations d'éclairage et le flou de mouvement. Naturellement, les corrélations bruyantes peuvent entraîner une correspondance d'image infructueuse et un flux de sortie inexact. Ce problème devient plus important lorsqu'il y a de grands déplacements. La réduction des corrélations bruitées peut conduire à des améliorations substantielles de l'estimation du débit.

6. Objectif de travail : résoudre les problèmes ci-dessus grâce à ViT.

Un avantage important des transformateurs de vision (ViT) par rapport à la convolution est que les fonctions de transformateur encodent mieux le contexte global, en s'occupant des pixels avec des poids dynamiques en fonction de leur contenu. Pour la tâche flux optique, des informations utiles peuvent se propager de zones claires vers des zones floues, ou de zones non occluses vers des zones occluses, pour améliorer l'estimation de flux de ces dernières. Une étude récente suggère que les ViT sont des filtres passe-bas qui effectuent un lissage spatial des cartes de caractéristiques. Intuitivement, après l'auto-attention du transformateur, des vecteurs de caractéristiques similaires prennent des sommes pondérées les uns des autres, lissant les irrégularités et les bruits à haute fréquence.

7. Idée centrale : proposition de "Cross Attention Optical Flow Transformer" (CRAFT), une nouvelle structure d'estimation de flux optique. CRAFT utilise deux nouveaux composants qui simplifient le calcul des volumes de corrélation. De plus, pour tester la robustesse de différents modèles aux grands mouvements, une attaque par décalage d'image est conçue pour générer de grands mouvements artificiels en décalant l'image d'entrée.

  1. Une couche de transformateur de lissage sémantique fusionne les caractéristiques d'une image, les rendant plus globales et sémantiquement plus fluides.
  2. Une couche d'attention croisée remplace l'opérateur de produit scalaire pour le calcul de corrélation. Il fournit un niveau supplémentaire de filtrage des caractéristiques via les projections de requête et de clé, afin que les corrélations calculées soient plus précises.

8. Résultats expérimentaux : SOTA

  1. Sur les benchmarks Sintel (Final) et KITTI (foreground), CRAFT a atteint de nouvelles performances de pointe (SOTA).
  2. De plus, pour tester la robustesse de différents modèles sur de grands mouvements, nous avons conçu une attaque de décalage d'image qui décale les images d'entrée pour générer de grands mouvements artificiels. À mesure que l'amplitude du mouvement augmente, CRAFT fonctionne de manière robuste, tandis que deux méthodes représentatives, RAFT et GMA, se détériorent gravement.

9. Téléchargement papier :

https://openaccess.thecvf.com/content/CVPR2022/papers/Sui_CRAFT_Cross-Attentional_Flow_Transformer_for_Robust_Optical_Flow_CVPR_2022_paper.pdf

https://github.com/askerlee/craft

2. Processus de mise en œuvre

1. Présentation de CRAFT

Le réseau hérite de la plomberie du RAFT. La principale contribution est de restaurer la partie de calcul du volume pertinent (rectangle vert en pointillés) par deux nouveaux composants : un transformateur sémantique lisse sur les caractéristiques de l'image 2 et une couche d'attention inter-images pour calculer le volume pertinent, deux nouveaux composants sont mis en évidence sous forme de boîte avec une bordure rouge. Ces deux composants aident à supprimer les corrélations parasites dans le volume de corrélation. Le module GMA en bas est le module Global Motion Aggregation.

2. Lissage sémantique

Étant donné deux images consécutives, la trame 1 et la trame 2, en entrée, la première étape du pipeline de flux optique consiste à extraire les caractéristiques de la trame à l'aide d'un réseau de caractéristiques convolutif. Pour améliorer les fonctionnalités de trame avec un meilleur contexte global, les fonctionnalités de trame 2 sont transformées à l'aide de Semantic Smoothing Transformer (SSTrans en abrégé). Pour mieux s'adapter aux différentes fonctionnalités, l'attention étendue est adoptée comme SSTrans au lieu de l'attention multi-tête (MHA) couramment utilisée. L'attention étendue, un système hybride avec une plus grande capacité, présente des avantages par rapport à MHA dans les tâches de segmentation d'images.

La couche d'attention étendue (EA) se compose de N modes (sous-transformateurs), calculant N ensembles de fonctionnalités qui sont agrégés en un seul ensemble à l'aide de l'attention en mode dynamique :

où B(k) est le score d'attention au modèle, et la probabilité d'attention au modèle G est le softmax de tous les B(k) le long de la dimension du modèle. La caractéristique de sortie EA(X) est une combinaison linéaire de toutes les caractéristiques du motif. Pour mieux préserver les caractéristiques d'origine du cadre, nous ajoutons une connexion de benne lestée apprenante avec un poids w1 :

Pour imposer un biais spatial, nous constatons que les plongements positionnels traditionnels ne forment pas de biais significatifs et utilisent plutôt des biais positionnels relatifs. Le biais est une matrice B ∈ (2r+1)×(2r+1) ajoutée à l'attention calculée, où r est le rayon spécifiant l'étendue locale du biais.

Plus précisément, supposons que la matrice d'attention d'origine est remodelée en un tenseur quadridimensionnel A ∈ H × W × H × W , où H, W sont la hauteur et la largeur des caractéristiques du cadre. Pour chaque pixel à i,j, A(i,j) est une matrice spécifiant les poids d'attention entre le pixel (i,j) et tous les pixels de la même image. Ajoutez un biais de position relative b au voisinage du rayon r du pixel (i,j) :

Dans la mise en œuvre, le nombre de modes sélectionnés est de 4 et le rayon r du décalage de position relative est de 7. La figure ci-dessous visualise le biais de position relative de CRAFT pendant la formation Sintel. Deux tendances intéressantes ont été observées : 

  1. La plus petite valeur de biais est d'environ 2 à (0,0), ce qui signifie que lors du calcul d'une nouvelle caractéristique pour le pixel (i,j), ce terme de biais réduira le poids de sa propre caractéristique de 2. Sans ce terme, le poids d'attention du pixel (i, j) sur lui-même peut dominer les poids des autres pixels, car le vecteur caractéristique est le plus similaire à lui-même. Ce terme réduit la proportion des anciennes caractéristiques d'un pixel dans les caractéristiques de sortie combinées, encourageant efficacement l'afflux de nouvelles informations provenant d'autres pixels.
  2. Les poids les plus élevés sont à 2~3 pixels du pixel central, ce qui signifie que les caractéristiques de ces pixels environnants sont le plus souvent utilisées pour compléter les caractéristiques du pixel central.

Ces deux observations sont confirmées dans la figure ci-dessous. La figure ci-dessous est une carte thermique de l'attention de soi du transformateur SS entre le point de requête (rectangle rouge) et tous les pixels de la même image. La région la plus dense est celle où les points de requête accordent la plus grande attention et extraient des fonctionnalités pour s'enrichir. Définir le biais de position sur 0 entraînera de mauvaises performances.

Il peut être tentant d'appliquer des transformateurs sur les entités des deux cadres. Cependant, dans les expériences, cela a entraîné de mauvaises performances. L'hypothèse est basée sur une croyance commune selon laquelle la correspondance d'images repose fortement sur les caractéristiques locales et structurelles à haute fréquence (HF). Dans le même temps, une grande quantité de bruit à haute fréquence polluera les caractéristiques d'information et entravera la correspondance. SSTrans agit comme un filtre passe-bas pour supprimer le bruit à ondes courtes, mais en même temps réduit les caractéristiques HF et améliore les caractéristiques basse fréquence (LF). Par conséquent, le modèle apprend à faire des compromis entre les composants LF et HF dans l'image 2 pour correspondre à l'image 1. Après avoir appliqué SSTrans sur les deux trames, les deux trames contiennent moins de composants HF et plus de composants LF. Les faire correspondre peut générer de nombreuses corrélations parasites et nuire à la précision du flux optique. Cette intuition est confirmée dans la figure ci-dessous. Corrélation entre les points de requête sur l'image 2 et l'image 1 sur l'ensemble de test Sintel (passage final). L'image est recadrée. La configuration CRAFT standard ("Single SSTrans") a une corrélation de bruit minimale. "Double SSTrans" a produit plus de corrélations de bruit.

3. Attention transversale pour les volumes associés

Dans le paradigme actuel, les volumes de corrélation sont à la base de la correspondance des pixels entre les images. Après avoir calculé les caractéristiques du cadre f1 et f2, le volume de corrélation est calculé comme un tenseur 4D ∈ H×W×H×W. Traditionnellement, le volume de corrélation est calculé comme le produit scalaire par paires de f1 et f2 :

Conceptuellement, un corps de corrélation est essentiellement l'attention croisée dans le transformateur sans transformation de fonctionnalité via une requête et une projection de clé. Les projections de requête/clé peuvent être considérées comme des filtres de fonctionnalités qui sélectionnent les fonctionnalités les plus informatives pour la corrélation. De plus, pour obtenir différentes corrélations, plusieurs requêtes et projections clés peuvent être utilisées, tout comme Extended Attention (EA). Des corrélations similaires à multiples facettes sont recherchées dans les VCN à canaux multiples. Ces avantages ont incité l'article à remplacer le produit scalaire par un EA simplifié :

Où Q k , K k sont respectivement la kème requête et la projection clé ; C k (i, j, m, n) est la corrélation calculée avec le kème mode. L'opérateur Softmax embarque k modalités et agrège k corrélations. Ici, l'EA est simplifiée en supprimant la projection de valeur et le réseau d'anticipation. Les poids de Q k et K k sont partagés car la corrélation entre les deux trames est symétrique.

Normalisation de la corrélation globale. Parfois, des extrema apparaissent dans le volume concerné, ce qui peut perturber la correspondance des pixels. Pour faire correspondre un pixel, intuitivement, l'ordre relatif des corrélations des pixels candidats est plus important que la valeur de corrélation absolue. Sur cette base, une normalisation de couche est effectuée sur l'ensemble du volume de corrélation pour stabiliser la corrélation. Empiriquement, cela se traduit par une légère amélioration des performances.

4. Fonction de perte

Identique à RAFT, utilisant une perte L1 itérative multiple pondérée.

5. Expérimentez

5.1. Détails de mise en œuvre

Il est convaincant d'évaluer la corrélation des poids d'attention et des objets associés à l'aide de cartes thermiques. De plus, Shifting Attack est conçu pour déplacer le déplacement afin de prouver la supériorité du réseau.

5.2 Comparaison avec les technologies avancées

5.3. Expérience d'ablation

Je suppose que tu aimes

Origine blog.csdn.net/qq_43307074/article/details/130050948
conseillé
Classement