【论文笔记】Ada3D : exploiter la redondance spatiale avec l'inférence adaptative pour une détection efficace des objets 3D

Ada3D : Exploiter la redondance spatiale avec l'inférence adaptative pour une détection efficace des objets 3D
原文链接:https://arxiv.org/abs/2307.08209

1. Introduction

  La perception 3D doit être rapide et précise. La méthode basée sur le voxel peut atteindre les performances SotA, mais est limitée par les ressources des véhicules autonomes et est difficile à répondre aux exigences en temps réel.
  Il y a deux raisons à ce long temps de traitement : premièrement, le modèle est trop volumineux, y compris des opérations fastidieuses telles que la convolution clairsemée 3D ; deuxièmement, l'entrée que l'algorithme doit traiter est trop volumineuse (trop de points lidar). Les articles précédents l'ont examiné du point de vue de la compression du modèle ; cet article examine les méthodes permettant de réduire le temps d'inférence à partir du niveau des données.
  Les réseaux courants basés sur les voxels utilisent des réseaux fédérateurs 3D pour extraire des caractéristiques 3D des nuages ​​de points d'entrée, qui sont ensuite projetés sur BEV et traités ultérieurement avec des réseaux fédérateurs 2D. Cependant, il existe une redondance spatiale dans les voxels 3D et dans le BEV 2D. Par exemple, les points des revêtements routiers et des bâtiments appartiennent aux points d'arrière-plan de la détection 3D. Lors de la suppression aléatoire de 30 % des points ou de la suppression de 70 % des points en dehors du cadre de sélection (au premier plan), il n'y a qu'une légère dégradation des performances. Le CNN 3D existant traite chaque point de la même manière et gaspille beaucoup de calculs et de stockage dans la zone d'arrière-plan. Seule une petite partie de la carte des caractéristiques 2D BEV a des valeurs de pixels, et le reste sont des valeurs d'arrière-plan 0. Mais les méthodes actuelles traitent les cartes de caractéristiques 2D BEV comme des cartes de caractéristiques denses et utilisent le traitement CNN conventionnel. Après avoir passé la première couche BN, la carte de caractéristiques perd sa parcimonie.
  Cet article propose la méthode d'inférence adaptative Ada3D pour réduire la redondance des données. Utilisez l'inférence adaptative pour les backbones 3D et 2D, en filtrant sélectivement les voxels 3D redondants et les fonctionnalités BEV 2D pendant l'inférence. Un prédicteur léger est utilisé pour évaluer l'importance des entités d'entrée sous BEV, et le score de prédiction est combiné avec la densité de points lidar pour déterminer s'il convient de supprimer des points. De plus, une normalisation par lots simple et efficace préservant la parcimonie est proposée pour éliminer l'influence des pixels d'arrière-plan et préserver la parcimonie des caractéristiques BEV 2D. Ada3D peut réduire considérablement la quantité de calcul et de stockage sans sacrifier les performances.

3. Méthode

3.1 Détection basée sur les voxels avec inférence adaptative

Insérer la description de l'image ici
  L'opération de voxélisation génère des voxels clairsemés X 3D ∈ RN × C X_\text{3D}\in\mathbb{R}^{N\times C}X3DR.N × C , oùNNN est le nombre de voxels,CCC est le nombre de canaux caractéristiques. Structure de voxel 3DF 3D \mathcal{F}_\text{3D}F3DUtilisez la convolution clairsemée 3D pour extraire les caractéristiques du nuage de points et obtenir X ~ 3D \tilde{X}_\text{3D}X~3D. Plus loin zzRegroupement de somme sur l' axe z , projeté sur BEV pour obtenir des caractéristiques 2D X 2D ∈ RC × W × H X_\text{2D}\in\mathbb{R}^{C\times W\times H}X2DR.C × L × H . Enregistrez le processus de projection et son processus inverse sous la formeΓ 3D → 2D \Gamma_{\text{3D}\rightarrow\text{2D}}C3D 2DΓ 2D → 3D \Gamma_{\text{2D}\rightarrow\text{3D}}C2D 3D. Réseau fédérateur 2D F 2D \mathcal{F}_\text{2D}F2DLes caractéristiques BEV sont ensuite extraites et finalement envoyées à la tête de détection F head \mathcal{F}_\text{head}FtêteFaites des prédictions de cadre de délimitation.
  L'inférence adaptative est utilisée dans les backbones 3D et 2D. ii à l'épine dorsale 3Di couche, l'inférence adaptative peut être exprimée comme suit : X 3D i = F 3D i ( X ~ 3 D i − 1 ) tilde{X}_{3D}^{i-1})X3Dje=F3Dje(X~3D _je 1)其中X ~ 3D i − 1 = Γ 2D → 3D ( F drop ( Γ 3D → 2D ( X 3D i − 1 ) , S ) ) ⊙ X 3D i − 1 S = F score ( Γ 3D → 2D ( X 3D je − 1 ) ) \tilde{X}_\text{3D}^{i-1}=\Gamma_{\text{2D}\rightarrow\text{3D}}(F_\text{drop}(\Gamma_{ \text{3D}\rightarrow\text{2D}}(X_\text{3D}^{i-1}),S))\odot X_\text{3D}^{i-1}\\S=F_ \text{score}(\Gamma_{\text{3D}\rightarrow\text{2D}}(X_\text{3D}^{i-1}))X~3Dje 1=C2D 3D( Flaisser tomber( C3D 2D( X3Dje 1) ,S ))X3Dje 1S=Fscore( C3D 2D( X3Dje 1))这里S ∈ RW × HS\in\mathbb{R}^{W\times H}SR.W × H représente le score d'importance des pixels BEV, qui est représenté parle score F F_\text{score}Fscore(L'entrée est constituée de voxels 3D après projection BEV) Obtenu en combinant la sortie du prédicteur et la densité du nuage de points. Étant donné le taux d'abandon R drop R_\text{drop}R.laisser tomber, processus de filtrage spatial F drop F_\text{drop}Flaisser tomberBasé sur le score d'importance SSS supprime la plupart des parties redondantes des fonctionnalités BEV et génère un masque unique qui indique si un emplacement donné doit être conservé. En diffusant vers l'espace 3D et en multipliant élément par élément avec les caractéristiques du voxel 3D d'origine, les caractéristiques du voxel 3D sous-échantillonnéesX ~ 3 D i − 1 \tilde{X}_{3D}^{i-1} sontX~3D _je 1. Les voxels filtrés sont traités comme des valeurs 0 et ne seront ni stockés ni traités. En savoir plus sur F drop F_\text{drop}Flaisser tomberF score F_\text{score}FscoreVoir les sections 3.2 et 3.3 pour plus de détails.
  De même, pour le ii-ème du squelette 2Di层,自适应推断可以表达为: X 2D i = F 2D i ( X ~ 2 D i − 1 ) X ~ 2D i − 1 = F chute ( X 2D i − 1 , S ) ⊙ X 2D i − 1 S = score F ( X 2D i − 1 ) X_\text{2D}^i=\mathcal{F}_\text{2D}^i(\tilde{X}_{2D}^{i-1}) \\\tilde{X}_\text{2D}^{i-1}=F_\text{drop}(X_\text{2D}^{i-1},S)\odot X_\text{2D} ^{i-1}\\S=F_\text{score}(X_\text{2D}^{i-1})X2Dje=F2Dje(X~2D _je 1)X~2Dje 1=Flaisser tomber( X2Dje 1,S )X2Dje 1S=Fscore( X2Dje 1)

3.2. Conception des prédicteurs d'importance

  Cet article utilise un CNN léger pour prédire le score d'importance spatiale de chaque emplacement à partir des entités d'entrée.

déduire

  Le processus d'inférence du prédicteur peut être exprimé comme suit : Y pred = F pred ( X BEV ; Θ pred ) Y_\text{pred}=F_\text{pred}(X_\text{BEV};\Theta_\text{pred })Ouipred=Fpred(XBEV;Θpred)其中 F pred F_\text{pred} Fpred是参数为 Θ pred \Theta_\text{pred} Θpred的预测器,输出为单通道热图 Y pred ∈ R W × H Y_\text{pred}\in\mathbb{R}^{W\times H} YpredRW×H。直观来看,垂直空间中的冗余较少,因此压缩垂直空间对效率的提升有限;此外在3D空间中预测重要性比较困难。注意预测器由多个分组卷积构成,输入分辨率为原始BEV分辨率的1/8,且其权重在3D主干和2D主干的不同层之间是共享的,可以减小参数和计算。

训练

  由于丢弃大量边界框外的点仅会使性能轻微下降,表明边界框的中心应该有更高的重要性。本文按照CenterPoint的方法,通过添加峰值在物体中心的高斯核生成真实热图 M gt M_\text{gt} Mgt。使用均方误差(MSE)损失函数进行训练。

3.3. 密度指导的空间过滤

  预测分数 Y pred Y_\text{pred} YpredIl peut représenter efficacement l'importance relative des entités en entrée, mais le nuage de points est dense à proximité et clairsemé à distance. Le prédicteur aura tendance à prédire une importance plus élevée dans les zones denses et à ignorer les objets distants. Cet article utilise la densité BEV du nuage de points pour ajuster le score du prédicteur : S = score F ( F_\text{pred}(X;\Theta_\text{pred})\cdot D_g^\betaS=Fscore( XBEV)=Favant( X ;Èmeavant)DgbD g D_gDgest la taille de ggCarte thermique de densité de g après regroupement du noyau, β \betaβ est un hyperparamètre qui ajuste la distribution de densité afin que les scores prédits et la distribution de densité aient la même variance.

3.4. Normalisation des lots préservant la rareté

  Étant donné que la carte de caractéristiques BEV est clairsemée, si des méthodes conventionnelles sont utilisées, elle perdra sa rareté après avoir passé la première couche BN et une grande quantité d'espace sera gaspillée pour stocker les caractéristiques d'arrière-plan avec moins d'informations.
  La solution directe consiste à effectuer le BN uniquement sur des pixels non vides, mais cela entraînera un entraînement instable et une réduction des performances car cela endommage la relation relative des caractéristiques. Par conséquent, cet article apporte des améliorations et propose une « normalisation par lots préservant la parcimonie » (SP-BN), qui ne soustrait pas la valeur moyenne des caractéristiques lors de l'exécution du BN sur des pixels non vides. De cette façon, les pixels non nuls peuvent être distingués des pixels d’arrière-plan. L'expression de SP-BN est la suivante : x ^ i ( k ) = xi ( k ) ( σ B ( k ) ) 2 + ϵ \hat{x}_i^{(k)}=\frac{x_i^{ (k )}}{\sqrt{(\sigma_B^{(k)})^2+\epsilon}}X^je( k )=( p.B( k ))2+ϵ Xje( k )σ B ( k ) \sigma_B^{(k)}pB( k )est l’écart type. En remplaçant BN par SP-BN, la rareté du BEV peut être considérablement augmentée sans dégradation des performances.

« Endommager la relation relative des caractéristiques » peut être compris comme ceci : en supposant que les valeurs de pixels non nulles sont toutes égales (la variance est de 0), effectuer BN sur des pixels non vides entraînera que tous les pixels soient 0, et le premier plan et l'arrière-plan devient indiscernable.

4. Expérimentez

4.1. Détails de mise en œuvre

Conception d'inférence adaptative

  Cet article ajoute uniquement l'inférence adaptative à certaines couches des squelettes 3D et 2D.

4.2. Comparaison des performances et de l'efficacité

  Les résultats expérimentaux montrent que le modèle ajoutant Ada3D peut atteindre des performances comparables au modèle d'origine, mais le temps d'inférence et la consommation de stockage peuvent être considérablement réduits. En ajustant le taux de chute R drop R_\text{drop}R.laisser tomber, peut être déduit selon différents budgets de ressources. Par rapport aux méthodes de modèles compressés, Ada3D peut réaliser une inférence plus rapide avec moins de dégradation des performances.

4.3. Expérience matérielle

  Après expériences, les conclusions suivantes peuvent être tirées :

  1. Après avoir utilisé SP-BN pour remplacer BN sur la base du modèle d'origine , une carte de caractéristiques BEV plus clairsemée peut être obtenue, augmentant ainsi considérablement l'efficacité d'inférence du squelette 2D.
  2. La latence de bout en bout du backbone 3D est liée au taux d'abandon.
  3. Ada3D est plus efficace avec des scènes plus grandes et une voxélisation plus fine. À son tour, l’augmentation de l’efficacité peut réduire davantage la taille des voxels et ainsi améliorer les performances.

5. Analyse et discussion

5.1. Études d'ablation

  Le prédicteur d'importance évalue avec précision l'importance des caractéristiques d'entrée . Les expériences montrent que le prédicteur reconnaît les caractéristiques dans les boîtes englobantes ; seules très peu de caractéristiques ont une importance évaluée de manière incorrecte.
  Le guidage par densité évite de rejeter de petits objets éloignés . L'utilisation de prédicteurs seuls entraînait une dégradation significative des performances, en particulier pour les petits objets. Le guidage de densité compense les petits objets distants qui devraient être de faible importance en raison de nuages ​​de points clairsemés. L’utilisation uniquement de scores ou de densités de prédicteurs entraînera la suppression de points dans certaines boîtes englobantes, affectant ainsi les performances.
  SP-BN conserve la parcimonie du BEV sans affecter les performances .

5.2. Analyse de l'inférence adaptative

  Ada3D introduit une surcharge négligeable . En raison de la faible résolution d'entrée et de l'utilisation de convolutions groupées, la surcharge du prédicteur au moment du test n'est que de 1 % de celle du détecteur 2D.
  Ada3D peut améliorer les performances . L'inférence adaptative peut même améliorer les performances grâce à la possibilité d'éliminer le bruit.

Je suppose que tu aimes

Origine blog.csdn.net/weixin_45657478/article/details/132134960
conseillé
Classement