[論文ノート] RCM-Fusion: 3D 物体検出のためのレーダーとカメラのマルチレベル融合

元のリンク: https://arxiv.org/abs/2307.10249

1 はじめに

  現在の一部のレーダーとカメラの融合 3D オブジェクト検出方法は、インスタンスレベルの融合を実行し、カメラ画像から 3D 提案を生成し、それらをレーダー点群と関連付けて提案を修正します。ただし、この方法は初期段階でレーダーを使用せず、カメラの 3D 検出器に依存しており、融合は画像ビュー内で発生し、レーダー点群の曖昧性が高いためにマルチモーダル データの関連付けが不正確になる可能性があります。
  本稿では、BEVの機能を融合するためのレーダーカメラマルチレベル融合(RCM-Fusion)手法を提案する。まず、レーダー データを使用して画像特徴変換を BEV に導き、3D 境界ボックスを生成する特徴レベルの融合が実行されます。次に,格子点に基づく提案特徴融合を使用して,インスタンスレベル融合を実行して提案を修正する.
  特徴レベル融合について,本稿では,レーダーの位置情報を使用して画像特徴をBEVに変換するレーダー誘導BEVクエリを設計する。次に、レーダー カメラ ゲート モジュールがマルチモーダル BEV 機能に重み付けを行い、集約します。この適応特徴集約モジュールは、高密度の BEV クエリ特徴をデコードするために Transformer に統合されています。インスタンス レベルの融合では、レーダー ポイントと 3D 提案の間の相関を考慮してレーダー ポイントの特徴を取得する、提案認識レーダー アテンション モジュールが提案されています。

2.関連作品

2.3. 2段階の3Dターゲット検出

  2 段階の LIDAR ベースの 3D オブジェクト検出器は、提案ボックス内の LIDAR 点群を使用して提案を修正します。方法は 2 つあり、1 つ目は提案に関わるいくつかの点をキーポイントとし、PointNet++ を使用してキーポイントに基づいて特徴を抽出する方法です。2 番目の方法では、グリッド ポイントと呼ばれる仮想点のセットを定義し、グリッド ポイントに基づいて特徴を抽出します。この論文では、提案内の点群分布を考慮することが 2 段階検出器の重要な部分であると考えており、格子点法を使用して点群分布に基づいてキーポイントを生成します。

3. 方法

  ネットワーク構造を次の図に示します。
ここに画像の説明を挿入します

3.1. レーダーと画像バックボーン

  ResNet-101 と FPN を使用したマルチスケール画像特徴FC F_Cの抽出FC;PointPillars を使用してレーダー BEV 特徴マップFR ∈ RH × W × C F_R\in\mathbb{R}^{H\times W\times C} を抽出しますFRR高さ××高さ

3.2. レーダー誘導型 BEV エンコーダー

  初めて使用FR F_RFRレーダーの位置情報を含むレーダー誘導 BEV クエリ (RGBQ) を生成します。次に、RGBQ を使用してマルチモーダル機能を強化された BEV 機能に変換します。最後に、レーダー カメラ ゲーティング (RCG) は、各モダリティの情報量に基づいてマルチモーダル ゲーティング集約を実行します。
  レーダー誘導 BEV クエリ: この論文はレーダー位置情報を使用し、FR F_Rを使用します。FRBEV クエリ (RGBQ) の生成QRG ∈ RH × W × CQ^{RG}\in\mathbb{R}^{H\times W\times C}QRGR高さ××高さ具体的にはFR F_RFRBEV を使用してQ ∈ RH × W × CQ\in\mathbb{R}^{H\times W\times C} をクエリしますQRH × W × Cスプライシング後、変形アテンション (DeformAttn) モジュールを通じてQRGQ^{RG}QRGQ p RG = ∑ V ∈ { Q , FR } DeformAttn ( Q p , p , V ) Q_p^{RG}=\sum_{V\in\{Q,F_R\}}\text{DeformAttn}(Q_p 、p、V)QpRG=V { Q , FR}DeformAttn ( Qpp V )ここでQ p RG Q_p^{RG}QpRGQ p Q_pQpそれぞれ BEV ピクセルp = (x, y) p=(x,y)を表すp=( x ,y )でクエリを実行します次に、Q p RG Q_p^{RG}QpRG空間クロス アテンション (SCA) ブロックを介した補正されたカメラ BEV 特徴BC B_Cの生成BCおよび修正されたレーダー BEV 特性BR B_RBRBC = SCA C ( Q p RG , FC ) BR = SCA R ( Q p RG , FR ) B_C=\text{SCA}_C(Q_p^{RG},F_C)\\B_R=\text{SCA}_R (Q_p^{RG},F_R)BC=SCAC( QpRGFC)BR=SCAR( QpRGFR)ここで、SCA はQ p RG Q_p^{RG}QpRGモーダル フィーチャへの投影とそれに続く変形可能なクロスアテンション操作。
  レーダー カメラ ゲーティング:重み付けされた組み合わせによるBC B_Cの融合BCBR B_R付きBRBRC = { σ ( Conv C [ BC ; BR ] ) ⊙ BC } ⊕ { σ ( Conv R [ BR ; BC ] ) ⊙ BR } B_{RC}=\{\sigma(\text{Conv}_C[B_C] ;B_R])\odot B_C\}\oplus\{\sigma(\text{Conv}_R[B_R;B_C])\odot B_R\}BRC={ σ (変換C[ BC;BR])BC}{ σ (変換R[ BR;BC])BR}ここで、BRC B_{RC}BRC融合 BEV 特徴マップσ ( ⋅ ) \sigma(\cdot)を表します。σ ( )はシグモイド関数⊙ \odot⊕ \oplus[ ⋅ ; ⋅ ] [\cdot;\cdot][ ;]はそれぞれ、要素ごとの乗算、要素ごとの加算、およびチャネル スプライシングを表します。次に、BRC B_{RC}BRCベースライン スキームBEVFormerと同じ方法で、正規化およびフィードフォワード ネットワークを使用します。リピート BEV エンコーダ (すべてこのセクションに含まれます) LLL回の後、最終的な BEV 特徴マップが生成されます。BEVFormer と比較すると、この方法はより正確な BEV 特徴マップ (特徴が実際の境界ボックスの近くに集中している) を生成できますが、前者には十分な深度情報が不足しています。

3.3. レーダー格子点補正

  プロポーザル認識レーダー アテンション (PRA) は、3D プロポーザルと関連するレーダー点群を入力として受け取り、MLP ベースのアテンションを使用して各ポイントの重要性を判断します。次に、レーダー グリッド ポイント プーリング (RGPP) を使用して、レーダー ポイントの特性と分布を考慮してグリッド ポイントをサンプリングし、レーダー ポイントとマルチスケール画像の特徴をグリッド ポイントに集約して、洗練された特徴を生成します。洗練された機能と最初の提案機能が組み合わされて、最終出力が生成されます。
  提案認識レーダー アテンション: CRAFT のソフト ポーラ アソシエーション (SPA) を使用して、レーダー ポイントを 3D 提案に関連付けます。まず、3D 提案とレーダー点を極座標系に変換し、半径距離と水平角が一定範囲内にあるレーダー点を 3D 提案に関連付けます。ただし、範囲が 3D 提案よりも大きいため、これにより、3D 提案に関連付けられるポイントが増えます。PRA を導入します。b = ( c , w , l , h , θ , v pred ) b=(\mathbf{c},w,l,h,\theta,\mathbf{v}_\text{pred}) とします。b=( c l v前に)は、中心位置がc \mathbf{c}である 3D 提案を表します。c、3D 寸法は(w, l, h) (w,l,h)( w l h )、配向角はθ \thetaθ、速度はv pred \mathbf{v}_\text{pred}v前にbbbに関連するKKK 個のレーダー ポイントは { rk } k = 1 K \{r_k\}_{k=1}^Kとして記録されます。{ r}k = 1K、k番目はkは uk ∈ R 3 \mathbf{u}_k\in\mathbb{R}^3あなたR点単位の分数ベクトルsk s_ks各ポイントの重要性を判断するには、関心のあるレーダー ポイントの特徴を取得します。ある: sk = MLP 2 ( [ MLP 1 ( rk ) ; δ ( c − uk ) ] ) ak = ソフトマックス ( sk ) ⊙ MLP 3 ( rk ) s_k=\text{MLP}_2([\text{MLP}_1( r_k);\delta(\mathbf{c}-\mathbf{u}_k)])\\a_k=\text{Softmax}(s_k)\odot\text{MLP}_3(r_k);s=MLP2([ MLP1( r) ;d ( cあなた)])ある=ソフトマックスs)MLP3( r)ここで、MLP はチャネル次元δ ( ⋅ ) \delta(\cdot)δ ( )は位置エンコーディングを表します。
ここに画像の説明を挿入します
  レーダー格子点プーリング:格子点ベースの補正モジュールにとって、格子点の位置と数が最も重要です。本稿ではレーダー点の位置誤差とスパース性を考慮してRGPPを提案する。上の図に示すように、 3D プロポーザル \mathbf{v}_\text{pred} の速度ベクトルv前にこれは接線速度v Tan \mathbf{v}_\text{tan}に分解できます。v黄褐色および動径速度v rad \mathbf{v}_\text{rad}vラッドk番目についてはkレーダー ポイントrk r_krTTT格子点{ gkt } t = 0 T − 1 \{g_k^t\}_{t=0}^{T-1}{ gk}t = 0T 1次のようにuk \mathbf{u}_kの位置に生成されますあなた定義: γ = { ρ min ⁡ , ∣ v Tan ⁡ ∣ ≤ ρ min ⁡ ∣ v Tan ⁡ ∣ , ρ min ⁡ < ∣ v Tan ⁡ ∣ < ρ max ⁡ ρ max ⁡ , ∣ v Tan ⁡ ∣ ≥ ρ max ⁡ gkt = γ ⋅ ( t T − 1 − 1 2 ) ⋅ v Tan ⁡ ∣ v Tan ⁡ ∣ + uk , t = 0 , ⋯ , T − 1 \gamma=\left\{\begin{行列} \rho_{\ . min}, & |\mathbf{v}_{\tan}|\leq\rho_{\min}\\ |\mathbf{v}_{\tan}|, & \rho_{\min}<|\ mathbf {v}_{\tan}|<\rho_{\max}\\ \rho_{\max}, & |\mathbf{v}_{\tan}|\geq\rho_{\max} \end{行列 }\right.\\g_k^t=\gamma\cdot \left(\frac{t}{T-1}-\frac{1}{2}\right)\cdot \frac{\mathbf{v} _ {\tan}}{|\mathbf{v}_{\tan}|}+\mathbf{u}_k, \;\;\; t=0,\cdots,T-1c= r_vたぬ_ _rマックス_ _vたぬ_ _r_r_<vたぬ_ _<rマックス_ _vたぬ_ _rマックス_ _gk=c(T121)vたぬ_ _vたぬ_ _+あなたt=0 T1この
記事は速度の接線方向に沿っています (v Tan ⁡ \mathbf{v}_{\tan}vたぬ_ _) レーダー ポイントは一般に接線方向のノイズが大きいため、ポイントのグリッドが作成されます。格子点間の距離と接線速度v Tan ⁡ \mathbf{v}_{\tan}vたぬ_ _サイズに関係します。したがって、この 3D 提案にはKT KTがあります。K Tグリッド点。次に、最遠点サンプリングを使用してMMM格子点{ gm } m = 1 M \{g_m\}_{m=1}^M{ gメートル}m = 1M
  次に、セット抽象化 (SetAbs) を使用して各グリッド ポイントgm g_mをエンコードします。gメートル周囲のレーダー ポイント、レーダー ポイントの特徴を取得F m pts F_m^\text{pts}FメートルポイントF m pts = SetAbs ( { ak } k = 1 K , { rk } k = 1 K , gm ) F_m^\text{pts}=\text{SetAbs}(\{a_k\}_{k=1} ^K,\{r_k\}_{k=1}^K,g_m)Fメートルポイント=SetAbs ( {}k = 1K{ r}k = 1Kgメートル)同時に、格子点が画像特徴マップFC F_CFC双線形サンプリングによる画像特徴F m img F_m^\text{img}の取得Fメートル画像F m img = バイリニア ( FC , proj ( gm ) ) F_m^\text{img}=\text{バイリニア}(F_C,\text{proj}(g_m))Fメートル画像=バイリニア( FCなぜなら( gメートル))ここで、proj ( ⋅ ) \text{proj}(\cdot)proj ( )は投影プロセスを表します。最後に、提案特徴量は次のように取得されます。F m obj = maxpool ( F m pts ⊕ F m img ) F_m^\text{obj}=\text{maxpool}(F_m^\text{pts}\oplus F_m^\テキスト{画像})Fメートルオブジェクト=マックスプール( FメートルポイントFメートル画像)上記の提案フィーチャは、最初の提案フィーチャとマージされ、3D プロポーザルが修正されます。

3.4. レーダーデータの前処理

  本論文は、レーダ点が有効であるかどうかの判定の厳密性を緩和し、複数のフレームを蓄積する(車両運動補償および点運動補償を実行する)ことによって、レーダ点群の密度を高める。

4. 実験

4.2. 実装の詳細

  画像ブランチは FCOS3D の事前トレーニングされた重みを使用し、レーダー ブランチは最初からトレーニングされます。クラスバランシング戦略 CBGS はトレーニング中に使用されます。

4.3. データの拡張

  レーダー ポイントを画像ピクセルに関連付けることにより、画像データ拡張と BEV データ拡張が使用されます。GT 拡張は極座標で使用され、空ではない (つまり、レーダー ポイントを含む) 実際の境界ボックスの数を増やす方法が使用されます。

4.4. nuScenes データセットの結果

  この方法のパフォーマンスは、カメラベースおよびカメラとレーダーの融合方法を大幅に上回る可能性があります。

4.5. nuScenes 検証セットでのアブレーション実験

  コンポーネント分析: RGBQ は最高のパフォーマンス向上をもたらしますが、RCG、RGPP、および RPA はわずかなパフォーマンス向上をもたらします。
  レーダー格子点サンプリングの役割:格子点に適さない手法や従来の格子点生成手法と比較して、本記事の適応格子点生成手法は最も優れた性能を発揮します。規則的な格子点の生成は、まばらなレーダーの特性の影響を受け、一部の格子点の周囲にレーダー点がなくなり、有効な格子点の数が減少します。
  データ拡張: 画像データ拡張と BEV データ拡張はどちらもパフォーマンスを大幅に向上させることができ、極座標 GT 拡張はパフォーマンスをわずかに向上させることができます。
  レーダー ポイント フィルタリング: 生のレーダー ポイントを適切にフィルタリングすると、特定のパフォーマンスが向上します。

おすすめ

転載: blog.csdn.net/weixin_45657478/article/details/131904821