元のリンク: https://arxiv.org/abs/2307.10249
1 はじめに
現在の一部のレーダーとカメラの融合 3D オブジェクト検出方法は、インスタンスレベルの融合を実行し、カメラ画像から 3D 提案を生成し、それらをレーダー点群と関連付けて提案を修正します。ただし、この方法は初期段階でレーダーを使用せず、カメラの 3D 検出器に依存しており、融合は画像ビュー内で発生し、レーダー点群の曖昧性が高いためにマルチモーダル データの関連付けが不正確になる可能性があります。
本稿では、BEVの機能を融合するためのレーダーカメラマルチレベル融合(RCM-Fusion)手法を提案する。まず、レーダー データを使用して画像特徴変換を BEV に導き、3D 境界ボックスを生成する特徴レベルの融合が実行されます。次に,格子点に基づく提案特徴融合を使用して,インスタンスレベル融合を実行して提案を修正する.
特徴レベル融合について,本稿では,レーダーの位置情報を使用して画像特徴をBEVに変換するレーダー誘導BEVクエリを設計する。次に、レーダー カメラ ゲート モジュールがマルチモーダル BEV 機能に重み付けを行い、集約します。この適応特徴集約モジュールは、高密度の BEV クエリ特徴をデコードするために Transformer に統合されています。インスタンス レベルの融合では、レーダー ポイントと 3D 提案の間の相関を考慮してレーダー ポイントの特徴を取得する、提案認識レーダー アテンション モジュールが提案されています。
2.関連作品
2.3. 2段階の3Dターゲット検出
2 段階の LIDAR ベースの 3D オブジェクト検出器は、提案ボックス内の LIDAR 点群を使用して提案を修正します。方法は 2 つあり、1 つ目は提案に関わるいくつかの点をキーポイントとし、PointNet++ を使用してキーポイントに基づいて特徴を抽出する方法です。2 番目の方法では、グリッド ポイントと呼ばれる仮想点のセットを定義し、グリッド ポイントに基づいて特徴を抽出します。この論文では、提案内の点群分布を考慮することが 2 段階検出器の重要な部分であると考えており、格子点法を使用して点群分布に基づいてキーポイントを生成します。
3. 方法
ネットワーク構造を次の図に示します。
3.1. レーダーと画像バックボーン
ResNet-101 と FPN を使用したマルチスケール画像特徴FC F_Cの抽出FC;PointPillars を使用してレーダー BEV 特徴マップFR ∈ RH × W × C F_R\in\mathbb{R}^{H\times W\times C} を抽出しますFR∈R高さ×幅×高さ。
3.2. レーダー誘導型 BEV エンコーダー
初めて使用FR F_RFRレーダーの位置情報を含むレーダー誘導 BEV クエリ (RGBQ) を生成します。次に、RGBQ を使用してマルチモーダル機能を強化された BEV 機能に変換します。最後に、レーダー カメラ ゲーティング (RCG) は、各モダリティの情報量に基づいてマルチモーダル ゲーティング集約を実行します。
レーダー誘導 BEV クエリ: この論文はレーダー位置情報を使用し、FR F_Rを使用します。FRBEV クエリ (RGBQ) の生成QRG ∈ RH × W × CQ^{RG}\in\mathbb{R}^{H\times W\times C}QRG∈R高さ×幅×高さ。具体的にはFR F_RFRBEV を使用してQ ∈ RH × W × CQ\in\mathbb{R}^{H\times W\times C} をクエリしますQ∈RH × W × Cスプライシング後、変形アテンション (DeformAttn) モジュールを通じてQRGQ^{RG}QRG:Q p RG = ∑ V ∈ { Q , FR } DeformAttn ( Q p , p , V ) Q_p^{RG}=\sum_{V\in\{Q,F_R\}}\text{DeformAttn}(Q_p 、p、V)QpRG=V ∈ {
Q , FR}∑DeformAttn ( Qp、p 、V )ここでQ p RG Q_p^{RG}QpRGとQ p Q_pQpそれぞれ BEV ピクセルp = (x, y) p=(x,y)を表すp=( x ,y )でクエリを実行します次に、Q p RG Q_p^{RG}QpRG空間クロス アテンション (SCA) ブロックを介した補正されたカメラ BEV 特徴BC B_Cの生成BCおよび修正されたレーダー BEV 特性BR B_RBR:BC = SCA C ( Q p RG , FC ) BR = SCA R ( Q p RG , FR ) B_C=\text{SCA}_C(Q_p^{RG},F_C)\\B_R=\text{SCA}_R (Q_p^{RG},F_R)BC=SCAC( QpRG、FC)BR=SCAR( QpRG、FR)ここで、SCA はQ p RG Q_p^{RG}QpRGモーダル フィーチャへの投影とそれに続く変形可能なクロスアテンション操作。
レーダー カメラ ゲーティング:重み付けされた組み合わせによるBC B_Cの融合BCBR B_R付きBR:BRC = { σ ( Conv C [ BC ; BR ] ) ⊙ BC } ⊕ { σ ( Conv R [ BR ; BC ] ) ⊙ BR } B_{RC}=\{\sigma(\text{Conv}_C[B_C] ;B_R])\odot B_C\}\oplus\{\sigma(\text{Conv}_R[B_R;B_C])\odot B_R\}BRC={
σ (変換C[ BC;BR])⊙BC}⊕{
σ (変換R[ BR;BC])⊙BR}ここで、BRC B_{RC}BRC融合 BEV 特徴マップσ ( ⋅ ) \sigma(\cdot)を表します。σ ( ⋅ )はシグモイド関数⊙ \odot⊙、⊕ \oplus⊕和[ ⋅ ; ⋅ ] [\cdot;\cdot][ ⋅ ;⋅ ]はそれぞれ、要素ごとの乗算、要素ごとの加算、およびチャネル スプライシングを表します。次に、BRC B_{RC}BRCベースライン スキームBEVFormerと同じ方法で、正規化およびフィードフォワード ネットワークを使用します。リピート BEV エンコーダ (すべてこのセクションに含まれます) LLL回の後、最終的な BEV 特徴マップが生成されます。BEVFormer と比較すると、この方法はより正確な BEV 特徴マップ (特徴が実際の境界ボックスの近くに集中している) を生成できますが、前者には十分な深度情報が不足しています。
3.3. レーダー格子点補正
プロポーザル認識レーダー アテンション (PRA) は、3D プロポーザルと関連するレーダー点群を入力として受け取り、MLP ベースのアテンションを使用して各ポイントの重要性を判断します。次に、レーダー グリッド ポイント プーリング (RGPP) を使用して、レーダー ポイントの特性と分布を考慮してグリッド ポイントをサンプリングし、レーダー ポイントとマルチスケール画像の特徴をグリッド ポイントに集約して、洗練された特徴を生成します。洗練された機能と最初の提案機能が組み合わされて、最終出力が生成されます。
提案認識レーダー アテンション: CRAFT のソフト ポーラ アソシエーション (SPA) を使用して、レーダー ポイントを 3D 提案に関連付けます。まず、3D 提案とレーダー点を極座標系に変換し、半径距離と水平角が一定範囲内にあるレーダー点を 3D 提案に関連付けます。ただし、範囲が 3D 提案よりも大きいため、これにより、3D 提案に関連付けられるポイントが増えます。PRA を導入します。b = ( c , w , l , h , θ , v pred ) b=(\mathbf{c},w,l,h,\theta,\mathbf{v}_\text{pred}) とします。b=( c 、w、l 、h、私、v前に)は、中心位置がc \mathbf{c}である 3D 提案を表します。c、3D 寸法は(w, l, h) (w,l,h)( w 、l 、h )、配向角はθ \thetaθ、速度はv pred \mathbf{v}_\text{pred}v前に。bbとbに関連するKKK 個のレーダー ポイントは { rk } k = 1 K \{r_k\}_{k=1}^Kとして記録されます。{
rk}k = 1K、k番目はk点は uk ∈ R 3 \mathbf{u}_k\in\mathbb{R}^3あなたk∈R3.点単位の分数ベクトルsk s_ksk各ポイントの重要性を判断するには、関心のあるレーダー ポイントの特徴を取得します。あるk: sk = MLP 2 ( [ MLP 1 ( rk ) ; δ ( c − uk ) ] ) ak = ソフトマックス ( sk ) ⊙ MLP 3 ( rk ) s_k=\text{MLP}_2([\text{MLP}_1( r_k);\delta(\mathbf{c}-\mathbf{u}_k)])\\a_k=\text{Softmax}(s_k)\odot\text{MLP}_3(r_k);sk=MLP2([ MLP1( rk) ;d ( c−あなたk)])あるk=ソフトマックス(sk)⊙MLP3( rk)ここで、MLP はチャネル次元δ ( ⋅ ) \delta(\cdot)δ ( ⋅ )は位置エンコーディングを表します。
レーダー格子点プーリング:格子点ベースの補正モジュールにとって、格子点の位置と数が最も重要です。本稿ではレーダー点の位置誤差とスパース性を考慮してRGPPを提案する。上の図に示すように、 3D プロポーザル \mathbf{v}_\text{pred} の速度ベクトルv前にこれは接線速度v Tan \mathbf{v}_\text{tan}に分解できます。v黄褐色および動径速度v rad \mathbf{v}_\text{rad}vラッド。k番目についてはkレーダー ポイントrk r_krk、TTT格子点{ gkt } t = 0 T − 1 \{g_k^t\}_{t=0}^{T-1}{
gkた}t = 0T − 1次のようにuk \mathbf{u}_kの位置に生成されますあなたk定義: γ = { ρ min , ∣ v Tan ∣ ≤ ρ min ∣ v Tan ∣ , ρ min < ∣ v Tan ∣ < ρ max ρ max , ∣ v Tan ∣ ≥ ρ max gkt = γ ⋅ ( t T − 1 − 1 2 ) ⋅ v Tan ∣ v Tan ∣ + uk , t = 0 , ⋯ , T − 1 \gamma=\left\{\begin{行列} \rho_{\ . min}, & |\mathbf{v}_{\tan}|\leq\rho_{\min}\\ |\mathbf{v}_{\tan}|, & \rho_{\min}<|\ mathbf {v}_{\tan}|<\rho_{\max}\\ \rho_{\max}, & |\mathbf{v}_{\tan}|\geq\rho_{\max} \end{行列 }\right.\\g_k^t=\gamma\cdot \left(\frac{t}{T-1}-\frac{1}{2}\right)\cdot \frac{\mathbf{v} _ {\tan}}{|\mathbf{v}_{\tan}|}+\mathbf{u}_k, \;\;\; t=0,\cdots,T-1c=⎩
⎨
⎧r私は_、∣ vたぬ_ _∣ 、rマックス_ _、∣ vたぬ_ _∣≤r私は_r私は_<∣ vたぬ_ _∣<rマックス_ _∣ vたぬ_ _∣≥rマックス_ _gkた=c⋅(T−1た−21)⋅∣ vたぬ_ _∣vたぬ_ _+あなたk、t=0 、⋯、T−1この
記事は速度の接線方向に沿っています (v Tan \mathbf{v}_{\tan}vたぬ_ _) レーダー ポイントは一般に接線方向のノイズが大きいため、ポイントのグリッドが作成されます。格子点間の距離と接線速度v Tan \mathbf{v}_{\tan}vたぬ_ _サイズに関係します。したがって、この 3D 提案にはKT KTがあります。K Tグリッド点。次に、最遠点サンプリングを使用してMMM格子点{ gm } m = 1 M \{g_m\}_{m=1}^M{
gメートル}m = 1M。
次に、セット抽象化 (SetAbs) を使用して各グリッド ポイントgm g_mをエンコードします。gメートル周囲のレーダー ポイント、レーダー ポイントの特徴を取得F m pts F_m^\text{pts}Fメートルポイント:F m pts = SetAbs ( { ak } k = 1 K , { rk } k = 1 K , gm ) F_m^\text{pts}=\text{SetAbs}(\{a_k\}_{k=1} ^K,\{r_k\}_{k=1}^K,g_m)Fメートルポイント=SetAbs (
{k}k = 1K、{
rk}k = 1K、gメートル)同時に、格子点が画像特徴マップFC F_CFC双線形サンプリングによる画像特徴F m img F_m^\text{img}の取得Fメートル画像:F m img = バイリニア ( FC , proj ( gm ) ) F_m^\text{img}=\text{バイリニア}(F_C,\text{proj}(g_m))Fメートル画像=バイリニア( FC、なぜなら( gメートル))ここで、proj ( ⋅ ) \text{proj}(\cdot)proj ( ⋅ )は投影プロセスを表します。最後に、提案特徴量は次のように取得されます。F m obj = maxpool ( F m pts ⊕ F m img ) F_m^\text{obj}=\text{maxpool}(F_m^\text{pts}\oplus F_m^\テキスト{画像})Fメートルオブジェクト=マックスプール( Fメートルポイント⊕Fメートル画像)上記の提案フィーチャは、最初の提案フィーチャとマージされ、3D プロポーザルが修正されます。
3.4. レーダーデータの前処理
本論文は、レーダ点が有効であるかどうかの判定の厳密性を緩和し、複数のフレームを蓄積する(車両運動補償および点運動補償を実行する)ことによって、レーダ点群の密度を高める。
4. 実験
4.2. 実装の詳細
画像ブランチは FCOS3D の事前トレーニングされた重みを使用し、レーダー ブランチは最初からトレーニングされます。クラスバランシング戦略 CBGS はトレーニング中に使用されます。
4.3. データの拡張
レーダー ポイントを画像ピクセルに関連付けることにより、画像データ拡張と BEV データ拡張が使用されます。GT 拡張は極座標で使用され、空ではない (つまり、レーダー ポイントを含む) 実際の境界ボックスの数を増やす方法が使用されます。
4.4. nuScenes データセットの結果
この方法のパフォーマンスは、カメラベースおよびカメラとレーダーの融合方法を大幅に上回る可能性があります。
4.5. nuScenes 検証セットでのアブレーション実験
コンポーネント分析: RGBQ は最高のパフォーマンス向上をもたらしますが、RCG、RGPP、および RPA はわずかなパフォーマンス向上をもたらします。
レーダー格子点サンプリングの役割:格子点に適さない手法や従来の格子点生成手法と比較して、本記事の適応格子点生成手法は最も優れた性能を発揮します。規則的な格子点の生成は、まばらなレーダーの特性の影響を受け、一部の格子点の周囲にレーダー点がなくなり、有効な格子点の数が減少します。
データ拡張: 画像データ拡張と BEV データ拡張はどちらもパフォーマンスを大幅に向上させることができ、極座標 GT 拡張はパフォーマンスをわずかに向上させることができます。
レーダー ポイント フィルタリング: 生のレーダー ポイントを適切にフィルタリングすると、特定のパフォーマンスが向上します。