[Notes papier] Transformateur multimodal : vers une détection d'objets 3D rapide et robuste

Lien d'origine : https://arxiv.org/abs/2301.01283

1. Introduction

  Inspiré de DETR, cet article propose une méthode robuste de détection de cible 3D multimodale de bout en bout CMT (Cross-modal Transformer). Premièrement, le module de codage de coordonnées (CEM) est utilisé pour générer des caractéristiques sensibles à la position en codant implicitement des ensembles de points 3D en jetons multimodaux. Pour la branche image, des points 3D échantillonnés dans l'espace tronconique sont utilisés pour exprimer la probabilité de la position 3D de chaque pixel ; pour la branche lidar, les coordonnées BEV sont directement codées dans des jetons de nuage de points. Ensuite, une requête guidée par la position est introduite, similaire à PETR. Le point de référence 3D est d'abord initialisé et projeté dans l'image et l'espace lidar pour le codage des coordonnées respectivement.
  Les avantages du CMT sont les suivants :

  1. Le codage implicite des positions 3D dans des caractéristiques multimodales évite le biais présent dans l'alignement explicite des caractéristiques à vue croisée.
  2. Le modèle ne contient que des opérations de base, ne nécessite pas de transformation de vue 2D en 3D et peut atteindre les performances SotA.
  3. Forte robustesse. Sans lidar, les performances du modèle sont comparables à celles des méthodes basées sur la vision.

3. Méthode

  La figure ci-dessous montre le schéma fonctionnel du modèle. Les images et les nuages ​​de points lidar obtiennent d’abord des jetons multimodaux via le backbone. Ensuite, les coordonnées 3D sont codées dans le jeton multimodal via le codage de coordonnées. La requête générée par le générateur de requêtes guidées par localisation interagit avec les jetons multimodaux dans le décodeur Transformer pour prédire les catégories et les cadres de délimitation.
Insérer la description de l'image ici

3.1. Module de codage de coordonnées (CEM)

  CEM code les informations de position 3D en jetons multimodaux, alignant ainsi implicitement les jetons multimodaux. Plus précisément, CEM génère des codes de position de caméra et BEV, qui sont ajoutés respectivement aux jetons d'image et aux jetons lidar. Soit P ( u , v ) P(u,v)P ( tu ,v ) est l'ensemble de points 3D correspondant à la carte des caractéristiques, où(u, v) (u,v)( tu ,v ) est la coordonnée de la carte des caractéristiques, puis via MLPψ \psiψ , l'intégration de la position de sortie de CEM peut être obtenue : Γ ( u , v ) = ψ ( P ( u , v ) ) \Gamma(u,v)=\psi(P(u,v))C ( tu ,v )=ψ ( P ( u ,v ))

Codage des coordonnées de l'image

  Inspiré du PETR, puisqu'un pixel correspond à un rayon dans l'espace 3D, un ensemble de points peut être sélectionné dans l'espace tronconique pour l'encodage. Caractéristiques de l'image donnée F im F_{im}Fje suis, chaque pixel correspond à un ensemble de points sous le système de coordonnées du tronc de la caméra { pk ( u , v ) = ( udk , vdk , dk , 1 ) T } k = 1 d \{p_k(u,v)=(ud_k, vd_k,d_k,1)^T\}_{k=1}^d{ pk( tu ,v )=( tu dk,vd _k,dk,1 )T }k = 1jjd est le nombre de points d'échantillonnage le long de l'axe de profondeur. Les points 3D correspondants peuvent être calculés comme suit : pkim ( u , v ) = T cil K i − 1 pk ( u , v ) p^{im}_k(u,v)=T_{c_i}^lK_i^{- 1}p_k(u,v)pkje suis( tu ,v )=TcjejeKje 1pk( tu ,v )其中T cil ∈ R 4 × 4 T_{c_i}^l\in\mathbb{R}^{4\times4}TcjejeR.4 × 4 vient deiiMatrice de transformation de coordonnées de i caméras vers lidar,K i ∈ R 4 × 4 K_i\in\mathbb{R}^{4\times4}KjeR.4 × 4 est la partieIIMatrice de paramètres internes des caméras i . Puis pixel( u , v ) (u,v)( tu ,v ) emplacement codé Γ im ( u , v ) = ψ im ( { pkim ( u , v ) } k = 1 d ) \Gamma_{im}(u,v)=\psi_{im}(\{p_k ^{ je suis}(u,v)\}_{k=1}^d)Cje suis( tu ,v )=pje suis({ pkje suis( tu ,v ) }k = 1)

Encodage des coordonnées du nuage de points

  Utilisez VoxelNet ou PointPillars comme réseau fédérateur pour obtenir un jeton de nuage de points F pc F_{pc}Fp c. ( u , v ) (u,v)( tu ,v ) est la coordonnée dans la carte de caractéristiques BEV, alors l'ensemble de points d'échantillonnage estpk ( u , v ) = ( u , v , hk , 1 ) T p_k(u,v)=(u,v,h_k,1) ^Tpk( tu ,v )=( tu ,v ,hk,1 )T , oùhk h_khkPour le 04La hauteur d'échantillonnage de k points, eth 0 = 0 h_0=0h0=0 . Alors le point 3D correspondant est pkpc ( u , v ) = ( udu , vdv , hk , 1 ) p_k^{pc}(u,v)=(u_du,v_dv,h_k,1)pkp c( tu ,v )=( tutoi ,vv ,hk,1 ) Parmi eux( ud , vd ) (u_d,v_d)( tu,v) est la taille du réseau BEV. Cet article n'échantillonne qu'une seule hauteur, ce qui équivaut à un codage de position 2D dans l'espace BEV. Γ pc ( u , v ) = ψ pc ( { pkpc ( u , v ) } k = 1 h ) \Gamma_{pc}(u,v)=\psi_{pc}(\{p_k^{pc}(u ,v)\}_{k=1}^h)Cp c( tu ,v )=pp c({ pkp c( tu ,v ) }k = 1h)

3.2. Générateur de requêtes guidées par localisation

  de [ 0 , 1 ] [0,1][ 0 ,1 ] , initialiseznnn个锚点A = { ai ∈ R 3 } i = 1 n A=\{a_i\in\mathbb{R}^3\}_{i=1}^nUN={ unjeR.3 }je = 1n. Après cela, les informations générales suivantes seront ajoutées au monde 3D : { ax , i = ax , i ( x max ⁡ − x min ⁡ ) + x min ⁡ ay , i = ay , i ( y max ⁡ − y min ⁡ ) + y min ⁡ az , je = az , je ( z max ⁡ − z min ⁡ ) + z min ⁡ \left\{ \begin{matrix}a_{x,i}=a_{x,i}(x_ {\ max}-x_{\min})+x_{\min}\\a_{y,i}=a_{y,i}(y_{\max}-y_{\min})+y_{\min }\ \a_{z,i}=a_{z,i}(z_{\max}-z_{\min})+z_{\min}\end{matrix}\right. unx , je=unx , je( xm a xXm je n)+Xm je nunoui , je=unoui , je( ouim a xouim je n)+ouim je nunz , je=unz , je( zm a xzm je n)+zm je n其中p max ⁡ , p min ⁡ ( p ∈ { X , y , z } ) p_{\max},p_{\min}(p\in\{x,y,z\})pm a x,pm je n( p.{ x ,oui ,z }) est la plage de coordonnées d’intérêt. Puis ajoutezAAA est projeté sur chaque modalité et codé par CEM. L'intégration de la requête d'objet est Γ q = ψ pc ( A pc ) + ψ im ( A im ) \Gamma_q=\psi_{pc}(A_{pc})+\psi_{im}(A_{im})Cq=pp c( Unp c)+pje suis( Unje suis)A pc A_{pc}UNp cA je suis A_{im}UNje suisrespectivement AAProjection de A sur BEV et image. Γ q \Gamma_qCqsera ajouté à l'intégration du contenu de la requête pour générer la requête initiale guidée par la localisation Q 0 Q_0Q0

3.3. Décodeurs et pertes

  Le décodeur est le même que DETR, utilisant LLLa couche de décodage L met progressivement à jour la requête et utilise deux FFN pour prédire les catégories d'objets et les cadres de délimitation. La perte focale est utilisée pour la classification et la perte L1 est utilisée pour la régression du cadre de délimitation. Lors du débruitage des requêtes, la perte est calculée de la même manière.

3.4. Abandonner la formation modale pour la robustesse

  Afin de garantir la fiabilité du modèle en cas de défaillance d'une seule caméra, de défaillance complète de la caméra et de défaillance du lidar, cet article propose une méthode de formation de modalité de rejet, qui utilise de manière aléatoire les données d'une seule modalité avec une certaine probabilité pendant le processus de formation pour garantir que le modèle fonctionne dans une seule modalité et multimodalité. De cette manière, le modèle peut être testé dans une seule modalité ou dans plusieurs modalités sans ajuster les pondérations du réseau. Les expériences montrent que cette stratégie n’affecte pas les performances du modèle de fusion.

3.5. Discussion

  Contrairement à FUTR3D , CMT n'a pas besoin d'échantillonner et de projeter de manière répétée à partir de plusieurs modalités, mais doit uniquement effectuer un codage de position multimodal et l'ajout de jetons.

4. Expérimentez

4.1. Ensembles de données et indicateurs d'évaluation

  Pour les images de caméra, seules les images clés sont utilisées ; pour le lidar, les nuages ​​de points des images non clés passées sont convertis en images clés.

4.2. Détails de mise en œuvre

  L'augmentation GT a été utilisée au début et au milieu de la formation ; afin d'accélérer la convergence, une stratégie de débruitage basée sur les points (similaire à DN-DETR) a été introduite et les points d'ancrage bruyants ont été déterminés par déplacement central.

4.3. Comparaison avec SotA

  La solution monomodale CMT-L peut atteindre un niveau proche du lidar SotA ; la solution multimodale CMT peut dépasser tous les SotA actuels. Par rapport à TransFusion, CMT-L présente une amélioration des performances plus élevée après l'introduction d'images.

4.4. Forte robustesse

  Les modèles formés à l'aide de programmes de formation ordinaires échouent presque complètement lorsque le mode lidar échoue. Cependant, les modèles formés à l'aide du programme de formation à modalité d'abandon peuvent atteindre le niveau de modalité unique d'une autre modalité lorsqu'une modalité échoue. Lorsqu’une seule caméra tombe en panne, les performances ne diminuent que légèrement.

4.5. Études d'ablation

  La suppression du codage de position du nuage de points entraîne une baisse significative des performances, tandis que la suppression du codage de position de l'image ne diminue que légèrement les performances. Le débruitage des requêtes basé sur des points (PQD) peut également apporter d'importantes améliorations de performances et accélérer la convergence. L'augmentation de la taille de l'image d'entrée améliore principalement la détection des petits objets.

4.6. Analyse

  La visualisation montre que la zone avec une réponse plus forte dans la carte d'attention est la zone où se trouve l'objet au premier plan, et la plupart des points d'ancrage accordent plus d'attention à l'objet au premier plan le plus proche.

5. Conclusion

limitation

  La surcharge de calcul de CMT est élevée car il existe un grand nombre de jetons multimodaux et une attention globale est utilisée dans le décodeur Transformer. Il existe deux solutions possibles : l'une consiste à réduire le nombre de jetons, par exemple en prédisant les jetons de premier plan à travers le réseau et en les saisissant dans CMT ; l'autre consiste à remplacer le mécanisme d'attention, par exemple en utilisant une attention déformable.

Je suppose que tu aimes

Origine blog.csdn.net/weixin_45657478/article/details/132129501
conseillé
Classement