【ICCV 2023】FocalFormer3D : 3D オブジェクト検出のためのハード インスタンスに焦点を当てる

元のリンク: https://arxiv.org/abs/2308.04556

1 はじめに

  現在の 3D オブジェクト検出方法では、検出漏れの問題が明示的に考慮されていません。
  この文書では、ハード インスタンス検出 (HIP) を提案します。ターゲット検出のカスケード デコーディング ヘッドからインスピレーションを得た HIP は、誤検出サンプルを段階的に検出し、再現率を大幅に向上させます。各段階で、HIP は TP サンプルを抑制し、前段階の FN サンプルに焦点を当て、HIP を繰り返すことで、困難な FN サンプルを処理できます。
  この記事では、HIP に基づいて、次の図に示すように、FocalFormer3D と呼ばれる 3D ターゲット検出を提案します。多段階ヒートマップ予測は、困難なインスタンスをマイニングするために使用されます。FocalFormer3D は、前のステージのポジティブ サンプル領域を示すために累積されたポジティブ サンプル マスクを維持するため、ネットワークはイージー サンプルでのトレーニングを無視し、ハード インスタンス (FN) に焦点を当てます。最後に、ネットワークはすべての段階から肯定的な予測を収集し、候補オブジェクトを生成します。
  さらに、この論文では、冗長な候補オブジェクトを排除するためのバウンディング ボックス レベルの洗練段階も提案しています。変形可能な Transformer デコーダを使用すると、候補オブジェクトは、バウンディング ボックス レベルのクエリ相互作用と反復ボックスの改良のための RoIAlign を介してバウンディング ボックス レベルのクエリとして表現されます。最後に、再スコアリング戦略を使用して、候補オブジェクトから肯定的なインスタンスを選択します。
ここに画像の説明を挿入します

3. 方法

3.1 ハードインスタンス検出 (HIP)

  困難なサンプル検出の表現: 実オブジェクトO = { oi } i = 1 NGT \mathcal{O}=\{o_i\}_{i=1}^{N_GT} を仮定すると、={ 私は}i = 1NGT、これが初期段階の主な目標です。候補オブジェクトのセットが与えられた場合、A = { ai } i = 1 NOC \mathcal{A}=\{a_i\}_{i=1}^{N_OC}={ _私は}i = 1NああC(アンカー ボックス、アンカー ポイント、またはオブジェクト クエリの場合があります)、ニューラル ネットワークはその肯定性を予測します。k番目にしましょうステージkで予測される陽性サンプルはP = { pi } i = 1 NP \mathcal{P}=\{p_i\}_{i=1}^{N_P} です。P={ p私は}i = 1NP、実際のオブジェクトを予測オブジェクトに割り当てることができ、実際の境界ボックスのカテゴリは次の割り当てに基づいて決定されます: O k TP = { oj ∣ ∃ pi ∈ P k , σ ( pi , oj ) > η } \mathcal{ O}_k^{ TP}=\{o_j|\exist p_i\in \mathcal{P}_k,\sigma(p_i,o_j)>\eta\}kTP={ j∣∃ p私はPs ( p私はああj)>η }ここでσ( ⋅ , ⋅ ) \sigma(\cdot, \cdot)σ ( ,)はマッチング指数 (IoU や中心距離など)、η \etaeta は事前定義されたしきい値です。次に、残りの不一致ターゲットは困難なインスタンスと見なすことができます: O k FN = O − ⋃ i = 1 k O k TP \mathcal{O}_k^{FN}=\mathcal{O}-\bigcup_{i=1 } ^k\mathcal{O}_k^{TP}kFN=i = 1kTPk 番目+ 1 k+1k+トレーニングの1段階の目標は、O k FN \mathcal{O}_k^{FN} をkFN、前向きな予測を無視しながら。
  この論文ではさまざまな段階から候補オブジェクトを収集しているため、FP を除去するには第 2 段階のオブジェクトレベルの洗練モジュールが必要です。

3.2 マルチステージヒートマップエンコーダ

  BEV 知覚における中心ヒート マップの予備知識: 中心ヒート マップの目的は、オブジェクトの中心にヒート マップ ピークを生成することです。BEV ヒート マップはテンソルS ∈ RX × Y × CS\in\mathbb{R}^{X\times Y\times C} を使用しますSRX × Y × C式 (X × YX\time Y)バツ×Yは BEV 特徴マップのサイズ、CCCはカテゴリの数です。ターゲット ヒート マップは、オブジェクトの BEV 投影点の近くに 2D ガウスを生成することによって取得されます。
  陽性サンプル マスクの蓄積: 陽性候補を追跡するために、この記事では BEV 上でオールゼロの陽性サンプル マスク (PM) を初期化し、段階に従ってそれを蓄積して、蓄積された陽性サンプル マスク (APM) を取得します: M ^ k ∈ { 0 , 1 } X × Y × C \hat{M}_k\in\{0,1\}^{X\times Y\times C}M^{ 0 ,1 }X × Y × C  マルチステージ BEV 機能は、ステージ間で軽量の逆残差ブロックを連結することによって取得されます。畳み込み層を追加することで、多段階の BEV ヒートマップを取得できます。肯定的なサンプルの予測結果に従って、BEV ヒート マップの応答がスコアによって並べ替えられ、肯定的なサンプル マスクが生成されます。具体的には、k番目kステージ、BEVヒートマップ全ポジション、全カテゴリーKKK個の応答がオブジェクト予測結果として選択されますP k \mathcal{P}_kPポジティブ サンプル マスクは、すべてのポジティブな予測pi ∈ P k p_i\in\mathcal{P}_kを記録します。p私はP位置(x, y) (x,y)( x ,y )およびカテゴリcccを取得し、マスクの対応する位置とカテゴリの値を 1 に設定します (M ( x , y , c ) = 1 M_{(x,y,c)}=1M( x y c )=1 )、残りの位置は 0 に設定されます。上記のマスク生成スキームは、ポイント マスク
  と呼ばれる候補オブジェクトの中心点を埋めるだけですこの記事では、他の 2 つのマスク生成スキームを提案します。

  1. プーリングに基づくマスク: 小さなオブジェクトは候補オブジェクトの中心点を埋め、大きなオブジェクトは3 × 3 3\times3を使用します。3×3サイズのコア充填。
  2. 境界ボックス マスク: 各ステージに追加の境界ボックス予測ブランチを追加し、マスクは予測された境界ボックスの内部領域を塗りつぶします。

  いいえ、kk_k層の累積ポジティブ サンプル マスクは次のように生成されます。 M ^ k = max ⁡ 1 ≤ i ≤ k M i \hat{M}_k=\max_{1\leq i\leq k}M_iM^=1 i kマックスM私は次に、ヒートマップの正のサンプル領域を次のようにフィルター処理して、困難なインスタンスに焦点を当てることができます。S ^ k = S k ⋅ ( 1 − M ^ k ) \hat{S}_k=S_k\cdot(1-\hat {M} _k)S^=S( 1M^)ヒートマップ エンコーダーをトレーニングするときは、各レイヤーのガウス焦点損失を使用し、それを合計して合計ヒートマップ損失を取得します。
  すべてのステージからの候補オブジェクトが収集され、第 2 ステージに送信され、そこで再スコアリングされ、FP が削除されます。
  HIP の効果的な実装に関する議論: HIP の有効性を確保するには、マスキング方法が次の条件を満たす必要があります。

  • 現段階で過去の陽性候補天体を除外する。
  • 実在する可能性のあるオブジェクトを削除しないようにしてください。

  ポイント マスクは上記の条件を満たしますが、真のバウンディング ボックス マスクを使用した理想的なマスクと比較して、肯定的な予測ごとに 1 つの BEV 候補オブジェクトのみが除外されます。したがって、プーリングベースのマスキング方法がより効果的です。

3.3 バウンディングボックスレベルの変形可能なデコーダ

  候補オブジェクトは、位置情報を含むオブジェクト クエリとして表示できます。候補オブジェクトの数を増やすと再現率が向上しますが、重複検出により FP が増加します。
  この論文では、候補オブジェクトをバウンディング ボックス レベルのクエリとしてモデル化し、変形可能な注意を使用して効率を向上させます。
  境界ボックス プーリング モジュール: RoIAlign を使用して、BEV フィーチャから境界ボックス コンテキスト情報を抽出します。具体的には、予測ボックスが与えられると、各オブジェクト クエリはBEV 境界ボックスから7 × 7 7\times7を抽出します。7×7つのフィーチャーグリッドポイントを備え、2層MLPを通過しました。位置エンコーディングがクエリとグリッド ポイントに追加されます。
  デコーダの実装: Deformable DETR と同様に、この記事ではマルチヘッド セルフ アテンションとマルチヘッド変形可能アテンションを使用します。変形可能なアテンションは、BEV フィーチャ マップ上のフィーチャを 3 つのスケールでサンプリングします。バウンディング ボックス プーリング モジュールは、回転された各 BEV バウンディング ボックスでサンプリングし、FC の 2 層を通過した後、クエリ埋め込みに特徴を追加します。サンプリング時、境界ボックスは元のサイズの 1.2 倍に拡大されます。

3.4 モデルのトレーニング

  モデルは 2 段階でトレーニングされます。最初のステージでは、Transformer デコーディング ヘッドを使用して LIDAR バックボーン ネットワークをトレーニングします (対応するモデルは DeformFormer3D と呼ばれます)。次に、DeformFormer3D のウェイトを使用して FocalFormer3D を初期化し、マルチスケール ヒート マップ エンコーダーとバウンディング ボックス レベルのデコーダーをトレーニングします。ただし、2 部グラフ マッチングで変形可能デコーダーを使用すると、トレーニングの初期段階で収束が遅くなります。したがって、この論文では、この問題を解決するために実際のオブジェクトからノイズの多いクエリを生成します。また、中心距離が一定値以上のマッチングペアはマッチングから除外されます。

4. 実験

4.1 実験のセットアップ

  データセットとインジケーター: 公式インジケーターに加えて、中心距離によって定義される平均再現率 (AR) インジケーターも nuScenes データセットに追加されます。

4.2 主な結果

  LIDAR に基づく nuScenes 3D ターゲット検出: この方法は SotA を実現できます。それでも、追加のセグメンテーション レベルのアノテーションを使用してトレーニングされたモデルよりも優れたパフォーマンスを実現します。
  nuScenes マルチモーダル 3D ターゲット検出: この記事では、事前トレーニングされた画像バックボーンを使用して画像特徴を抽出し、画像特徴を事前定義されたボクセル空間にアップグレードして、それらを LIDAR ベースの BEV 特徴と融合します。テスト時データ拡張 (TTA) が実行されない場合、この記事の方法は sota よりも優れたパフォーマンスを発揮し、推論にかかる時間が短縮されます。一部のまれなカテゴリではパフォーマンスが向上します。
  nuScenes3D ターゲット追跡: 検出ベースの追跡アルゴリズムである SimpleTrack の使用は、過去の sota よりも優れている可能性があり、さらに、TTA を使用した FocalFormer3D は、モデル統合を使用した BEVFusion よりも優れている可能性があります。
  Waymo LIDAR 3D ターゲット検出: この記事のモデルは、モデルのハイパーパラメーターを微調整しなくても、競争力のある結果を達成できます。

4.3 再現率分析

  候補オブジェクトの比較を思い出してください。単一の LIDAR モダリティのみを使用する FocalFormer3D は、マルチモーダル手法よりも優れたパフォーマンスを発揮します。
  最終予測の再現率の比較: 距離のしきい値が増加するにつれて、ほとんどの方法の最終予測の再現率 (候補オブジェクトの再現率と比較して) が低下します。この方法の再現率は、以前の方法を大幅に上回る可能性があります。
  クラスごとの再現率の比較: TransFusion-L と比較して、FocalFormer3D は大きなオブジェクトの再現率が高くなります。

4.4 アブレーション研究

  HIP クエリのサイズと生成ステージ: HIP レイヤーの数またはクエリの総数を増やすと、パフォーマンスが向上する可能性があります。
  ポジティブ サンプル マスク タイプ: シングルポイント マスクはマスクレス手法を向上させることができ、プーリング ベースのマスクを使用するとパフォーマンスをさらに向上させることができます。
  段階的な改良: マルチステージ ヒートマップ エンコーダーを追加したモデルは、CenterPoint と比較して再現率が大幅に高くなりますが、mAP と NDS の改善はわずかです。オブジェクト レベルの再スコアリングと RoI ベースの位置合わせを使用すると、パフォーマンスをさらに向上させることができます。また、バウンディング ボックス レベルの変形可能なデコーダを使用すると、パフォーマンスを大幅に向上させることができます。
  再スコアリングの効果を評価するために、この論文では、バウンディング ボックス回帰の影響を排除するために、洗練段階で再スコアリングのみが実行される別の実験を設計しました。実験によれば、この方法では、改良段階のないモデルと比較してパフォーマンスが大幅に向上します。これは、初期段階でのヒート マップ スコアリングの限界を示しています。したがって、再スコアリングの第 2 段階が役立ちます。
  モデル コンポーネントのレイテンシ解析: 主な計算時間はスパース畳み込みに基づく LIDAR バックボーン ネットワークにありますが、マルチステージ ヒート マップ エンコーダーとバウンディング ボックス レベルの変形可能デコーダーが占める割合は低いです。

5. ディスカッション

  制限事項: この記事の HIP 方法では、オブジェクトの中心にピークを持つヒート マップを生成する必要がありますが、カメラのヒート マップは扇形である可能性があるため、カメラベースの検出には適さない可能性があります。

付録

A. 追加のアブレーション実験

  デコードヘッドの設計: クロスアテンションと比較して、変形可能なアテンションを複数の層に積み重ねることにより、待ち時間が短くなり、パフォーマンスが向上します。ポイント レベルのクエリと比較して、境界ボックス レベルのクエリ (つまり、境界ボックス プーリング) を使用すると、より高いパフォーマンスを実現できます。
  レイテンシー分析: この記事の手法は、パフォーマンスと速度の両方で過去の手法を上回ることができます。

B. 追加の実装詳細

  nuScenes データ セットのモデルの詳細: 非キー フレームはキー フレームに蓄積され、モデルに入力されます。トレーニングの初期段階では GT サンプリング拡張が使用されます。
  Waymo データセットのモデルの詳細: 単一フレーム入力を使用し、トレーニングの初期段階で GT サンプリング拡張を使用します。
  マルチモーダル モデルへの拡張: 投影された画像の 3D グリッド特徴から画像 BEV 特徴を取得するために、この論文では各シリンダーでクロス アテンションを使用します。LIDAR BEV グリッド特徴はクエリとみなされ、画像ボクセル特徴はキーとみなされます。そして価値観。追加の畳み込みを使用して、画像 BEV 機能と LIDAR BEV 機能を融合します。この融合は、マルチステージ ヒートマップ エンコーダーの各ステージで発生します。

C. 第 2 段階の改良のための予測局所性

  この論文では、グローバル操作とカメラの視点情報を使用しているにもかかわらず、小さなオブジェクトと大きなスケールの違いにより、長距離の 2 段階のリファインメントが制限されると述べています。つまり、第 1 段階のヒート マップ予測と比較して、第 2 段階のほとんどの方法のオフセット回帰範囲 (つまり、予測局所性) が非常に小さいため、第 2 段階の検出ミス (FN) を補償する能力は低くなります。弱いです。この記事では、BEV の FN を決定し、ローカルの再スコアリングを実行することで、この問題をある程度軽減できます。

D. 視覚化の例

  可視化結果: この方法の AR は高いですが、重度のオクルージョンや点の欠落により FN が発生し、バウンディング ボックスの方向予測が正しくない場合にも FN が発生する可能性があります。

おすすめ

転載: blog.csdn.net/weixin_45657478/article/details/132247572