AeDet: 方向不変のマルチビュー 3D オブジェクト検出

fe4a60688c55d7e045ec8fb8359181a7.png

コード: https://github.com/fcjian/AeDet

2dbf356f0e1bae76851e8f3178262f6f.png

プロジェクトアドレス: https://fcjian.github.io/aedet/

538ee29b1c735dca888ef8bcff9768ab.png

紹介と動機

この論文では、画像の特徴を画像ビューから鳥瞰図に変換する LSS (Lift-Splat-Shoot) 法の開発に特に注目しながら、自動運転分野におけるマルチビュー 3D ターゲット検出の問題を検討します。 - ビュー、BEV) を使用してターゲット検出を実現します。ただし、従来の畳み込み手法は、BEV 特徴処理において BEV 特徴の放射対称性を無視するため、検出器の最適化がより困難になります。

この論文は、BEV 特徴の放射対称性をモデル化することにより、方向不変の BEV 知覚を実現することを目的とした、新しい方位等変検出器 (AeDet) を提案します。AeDet は、異なる方向における BEV の特徴とターゲット予測の表現を統合するために、方位等変量畳み込み (AeConv) と方位等変量アンカーを導入しています。さらに、カメラから切り離された仮想深度が導入され、深度予測と深度ネットワークの最適化が向上します。nuScenes データセットに関する広範な実験により、AeDet が物体の向きと速度の精度を大幅に向上させ、NDS 評価指標で優れたパフォーマンスを達成し、最近のマルチビュー 3D 物体検出方法を上回ることが示されました。

本論文の研究成果は、自動運転分野における物標検出を強力に裏付けるものであり、自動運転技術の更なる発展を促進することが期待されます。

この記事への寄稿

  • 方位等変畳み込み (AeConv) は、異なる方向での表現学習を統合し、方向不変の BEV 特徴を抽出するように設計されています。

  • 新しい方位等変アンカーを提案し、半径方向に沿ってアンカーポイントを再定義し、異なる方位角での予測ターゲットを統一することができます。

  • 仮想深度の概念は、カメラの内部パラメーターから深度予測を切り離すことでディープ ネットワークの最適化を容易にするために導入されました。

関連作業

シングルビュー 3D オブジェクト検出: 多くの研究では、シングルビュー画像から 3D 境界ボックスを直接予測しようとしています。これらの方法には、推定深度マップを使用して画像表現を改善する方法、2D 構造化ポリゴンを 3D 直方体に逆投影する方法、3D オブジェクト属性を分離することによって 3D 検出で FCOS を機能させる方法などが含まれます。また、画像の奥行き情報を擬似LiDARによりLiDAR迷彩に変換し、3Dバウンディングボックス予測を実現する手法もいくつかあります。

マルチビュー 3D オブジェクト検出: 最新の 3D オブジェクト検出フレームワークは、一般に LSS (Lift-Splat-Shoot) ベースの方法とクエリベースの方法に分類できます。LSS ベースの方法では、最初に画像ビューから BEV に画像特徴を投影し、次に BEV ベースの検出器を通じて BEV 特徴を処理します。クエリベースの方法では、オブジェクト クエリを画像ビューに投影し、画像特徴をサンプリングすることにより、3D オブジェクト検出にトランスフォーマーを使用します。これらの手法はそれぞれ特徴や方式が異なりますが、いずれも多視点3D目標検出においては進歩を遂げています。

シングルビュー深度推定: シングルビュー深度推定は、単一の画像から深度情報を予測することを目的としています。この分野の研究には、教師あり学習方法、教師なし学習方法、および半教師あり学習方法の使用が含まれます。これらの方法では通常、対応するグラウンド トゥルース深度、ステレオ画像ペア、スパース深度情報などを使用するなど、トレーニングのための深度情報に関連する監視信号を使用する必要があります。

この記事のメソッド

88e26135bd764600bd25a29fd52798c4.png
方向不変の BEV 特徴の学習
  • 方位等変畳み込み (AeConv) は、半径方向の方位不変 BEV 表現を抽出する方位等変畳み込み手法です。

  • AeConv の中心となるアイデアは、カメラの焦点を中心点として、カメラの向きに応じて各位置で畳み込みサンプリング グリッドを回転させ、異なる向きで同じ BEV 特徴表現を学習することです。

具体的な手順は次のとおりです。

  1. カメラの焦点を中心点として使用します。この方位システムでは、BEV から時計回りの方向が方位 α として定義され、自我の方向が方位 0 の基準方向として定義されます。

  2. 次に、各位置の向きについて、回転操作を使用して、従来の畳み込みサンプリング グリッド R を新しいサンプリング グリッド Rrot に回転します。この回転プロセスは次のように与えられます。

    f38f14fe0c5c0e8c3ecf24e0187796e6.png
  3. 次に、新しいサンプリング グリッドに基づく畳み込み演算を使用して、新しい特徴マップ y が次のように計算されます。

    7952481335c4f878709c2c98fc6e40c2.png

AeConv の回転サンプリング グリッドは常にカメラの半径方向に配置されます (図 3a を参照)。これは、AeConv が異なる方向に関係なく、同じ画像サンプルに対して同じ BEV 特徴を学習できることを意味し、それにより方向に依存しない特徴を実現します。表現。

865225932ed3f4b3b33fc7abae862b91.png

マルチカメラ自動運転システムでは、カメラごとに位置が異なるため、システムの向きが不均一になります。マルチビュー BEV の特徴に統一された方向不変性を持たせるために、この記事では、カメラの平均中心点を方向システムのおおよその中心点として使用することを推奨しています。

そこで本稿ではAeConvに基づいてBEVネットワークを構築し、従来の畳み込み演算を提案するAeConv演算に置き換えることで、半径方向に方向不変のBEV特徴量の抽出を実現する。この改善により、BEV ネットワークの最適化プロセスが大幅に簡素化され、マルチビュー環境でのネットワークの堅牢性と効率性が向上しました。

方向が一定のアンカーポイント:
  • 方位角等変アンカーは、異なる方向の下で統一されたターゲット予測を実現するために導入されています。

  • 従来の方法とは異なり、AeDet のアンカーは、絶対的なターゲット方向ではなく相対角度を予測し、方位角に対する相対角度、中心オフセット、および半径方向と垂直方向の両方の速度を予測します。

  • この等しい方向のアンカー ポイント設計により、検出ヘッドが異なる方向で同じターゲット予測を実行できるようになり、予測タスクの困難さが軽減されます。

具体的な手順は次のとおりです。

  1. アンカー検出ヘッドは、各位置にアンカー ポイントを密に定義します。

    c48a73710474fb3a9a16b79eb70b43ab.png

    予測を簡素化するために、この記事では方位角等変アンカー ポイントを設計しています。これにより、検出ヘッドは同じ画像の異なる方位角に対して同じターゲットを予測できるようになります。つまり、方位角の影響を受けません。検出ヘッドは、オブジェクトの方向に対する相対的な角度と、一貫した方向での速度/中心シフトを予測できます。

  2. AeConv と同様に、この記事では各位置の方向に基づいて方向等変アンカー ポイントを定義しています。

    633bb057a59a2a75cd4c7f8e6b965904.png

    次に、方位等変アンカー点と実際のターゲット フレームとの間のボックス残差 (つまり、予測されたターゲット) を計算できます。

    方向残差は、オブジェクトの方向に対するオブジェクトの方向の相対角度です。

    867001d790172558743ed69854ca41fa.png
  3. この記事では、等変アンカーの方位角で、アンカー方向とその直交方向に沿った値を予測します。新しい中心オフセット (∇r, ∇o) と速​​度 (vr, vo) は次のように計算できます。

    4de9b7737dae80a0c6c953c53c51209b.png

    方位アンカー ポイントの方向は常にカメラの半径方向に沿っていることに注意してください。したがって、検出ヘッドは、図 3b に示すように、向きなどの方向に基づいて物体の方向、中心オフセット、速度を予測し、向きに依存しない予測ターゲットを生成できます。

    4a817e1c3829ae0dbf6b56db982156f1.png
カメラデカップリング仮想深度:
  • カメラ分離仮想深度の概念は、マルチカメラ画像の深度予測を簡素化するために導入されています。

  • カメラを分離したディープネットワークを介して、カメラの固有パラメータに依存せずに仮想深度を予測します。

  • 仮想深度とカメラの内部パラメータの関係を使用して仮想深度を実際の深度にマッピングし、正確な深度情報を取得します。

具体的な手順は次のとおりです。

  1. 仮想深度予測: まず、この記事では分離されたカメラ深度ネットワークを使用して、仮想焦点距離に基づいて仮想深度を予測します。この仮想深度は、カメラの固有パラメータには依存しません。わかりやすくするために、この記事では BEVDepth と同じディープ ネットワーク構造を使用しますが、カメラ認識アテンション モジュールは削除しています。仮想ビン サイズ (仮想ビン サイズ):

    9f9f9302c9fdcc9e21360779e2eb0a65.png
  2. 仮想深度から実際の深度へのマッピング: 仮想深度は、クラシック カメラ モデルに従って実際の深度にマッピングできます。これは、カメラの焦点距離などの固有パラメータを考慮することで、仮想深度を現実世界の深度に変換できることを意味します。

    ab1dd1f81aed76a265118391bdfde0c3.png

    ただし、カメラが異なれば焦点距離も異なるため、上記のマッピングを使用すると、ビュー変換後のマルチカメラ BEV フィーチャの深度解像度が異なります。この問題を解決するには、可変セグメント サイズを固定サイズにマップします。深さが固定であると仮定したセグメント サイズは次のように定義されます。

    a4191d00e83be125b0c042f6aead42e9.png

    最終的な目標は、これらの N 個の固定深度間隔の分類スコア (sf) を予測することです。著者らは、次の式を使用して、これらのスコアを仮想深度スコア (SV) から実際の深度スコアに変換します。

77de05d3af332c538f63f0178842f44d.png

実験

実験結果

SOTAとの比較:

db000fc9ed43213b84773dfee235e4cb.png
6c9a59ac27dc772ce5a237cb6d1bd226.png

元のビューと回転したビューでの BEVDepth と AeDet の検出結果:

00e3c85574d9ff9745a4eb409a751614.png

元のビューと回転されたビューでの BEVDepth と AeDet のパフォーマンス:

e104885b9267eee31c1473fa2ee92c1d.png
アブレーション実験

AeDet のさまざまなコンポーネントのアブレーション研究:

eec60dc0ded439afae0d119c6ac46b6b.png

シングルフレーム方式におけるAeDetの性能評価結果:

aa831a92caa527eba45a80fdfba5f6a4.png

結論は

  • AeDet という名前の検出器が提案されており、方向に依存しない 3D オブジェクト検出を実現することを目的としています。AeDet は、方位等変畳み込み (AeConv) や方位等変アンカーなどのさまざまな革新的なテクノロジーを使用して方向の不変性を実現し、カメラ分離された仮想深度を使用して深度予測を統合します。

  • nuScenes データセット上で、AeDet は大幅なパフォーマンス向上を達成し、NDS の 62.0% に達し、既存の手法を上回り、特に物体の方向と速度の予測において顕著な改善を達成しました。

  • この研究では、特にマルチカメラ ビュー下での 3D オブジェクト検出パフォーマンスの向上における AeConv と方位角等変アンカーの有効性を強調しています。

全体として、この論文は、マルチカメラ環境における 3D 物体検出の問題を解決するための新しいアイデアと方法を提供し、大幅なパフォーマンス向上を実現し、自動運転と環境認識の分野における研究と応用に役立つ洞察を提供します。

☆終わり☆

これが表示された場合は、この記事が気に入っていることを意味します。転送して「いいね!」してください。WeChat で "uncle_pn" を検索してください。編集者の WeChat "woshicver" を追加することを歓迎します。高品質のブログ投稿が友達の輪に毎日更新されます。

QRコードを読み取ってエディタを追加↓

3735bccb874617028a77a48ed0b6bf5b.jpeg

おすすめ

転載: blog.csdn.net/woshicver/article/details/132893399