[CVPR 2023: AeDet が方向不変の多視点 3D ターゲット検出を実現]

全体的なアーキテクチャプロセス

論文アドレス: https://openaccess.thecvf.com/content/CVPR2023/papers/Feng_AeDet_Azimuth-Invariant_Multi-View_3D_Object_Detection_CVPR_2023_paper.pdf
ホームページ: https://fcjian.github.io/aedet
コード: https://github.com/ fcjian /AeDet

この記事では、多視点 3D ターゲット検出のための方位不変を実現できる AeDet と呼ばれる方位不変検出器を紹介します。以下の図に示すように、異なる方向のカメラが異なる時間に同じシーンをキャプチャすると仮定すると、既存の方法 (BEVDepth を例として使用) は、異なる方向の同じバスに対して異なる BEV 特徴と予測結果を生成しますが、AeDet は同じバスに対して異なる向きの下でも、ほぼ同じ BEV 特性と予測結果が得られます。
ここに画像の説明を挿入します

質問

Lift-Splat-Shoot (LSS) に基づく現在のマルチビュー 3D オブジェクト検出器 (BEVDepth など) は、通常、イメージビュー エンコーダー、ビュー トランスフォーマー、BEV エンコーダー、検出ヘッドで構成されます。
ここに画像の説明を挿入します
BEVDepthに基づいて簡単な実験を行いました。異なる向きのカメラが異なる時間に同じシーンをキャプチャし、6 つのビューの入力として同じ画像を使用すると仮定します (簡単にするために、この記事では 3 つのビューのみを示します)。驚くべきことに、BEVDepth は、同じオブジェクト (つまり、下の写真のバス) に対して異なる向きで異なる BEV 特徴と検出結果を生成しました。
ここに画像の説明を挿入します
上記の結果の理由をモジュールごとに分析します。画像エンコーダとパースペクティブ コンバータは、それぞれ異なる方向で画像を処理するため、以下の図に示すように、画像を回転等分散性 (つまり、放射対称性) を持つ BEV 特徴に変換できます。 ただし、BEV
ここに画像の説明を挿入します
エンコーダと検出ヘッドは、従来の畳み込みおよび検出ヘッドを使用します。 BEVセンシング用のアンカーフリー検出ヘッド。この設計では、BEV 特徴の放射対称性が無視され、その結果、同じオブジェクトに対して異なる向きで異なる特徴と予測が行われます。

ここに画像の説明を挿入します
より具体的には、従来の畳み込みエンコーダとアンカーフリー検出ヘッドには、BEV の認識において次の 2 つの問題があります。
1) 下の左の図に示すように、従来の畳み込みエンコーダは同じサンプリング グリッドを使用するため、回転的に等変な BEV 特徴の場合、サンプリングが行われます。そして、異なる方向で異なる BEV 特徴を生成します。
2) 以下の右図に示すように、従来の検出ヘッドはデカルト座標系 (青い矢印) の方向に沿って物体の方向と速度を予測するため、検出ヘッドは同じ物体に対して異なるターゲットを予測する必要があります。さまざまな方向で。
ここに画像の説明を挿入します

方法

この論文は、AeDet という名前の方向等変多視点 3D オブジェクト検出器を提案します。これは、異なる方向の下で BEV の知覚 (つまり、表現の学習と予測) を統合し、それによって検出パフォーマンスを向上させることを目的としています。この方法では、画像エンコーダとビューコンバータを通じてマルチビュー画像を処理し、放射対称の BEV 特徴を生成します。続いて、方位等変畳み込み (AeConv) に基づく BEV ネットワークを使用して方向不変 BEV 特徴をさらにエンコードし、方位不変検出結果を方位等変アンカーに基づいて予測します
ここに画像の説明を挿入します
。方位不変 BEV 特徴
方位不変 BEV 特徴の学習に関して、この論文では方位等変畳み込み (AeConv) と呼ばれる方法を提案します。AeConv は、さまざまな方向での BEV 特徴学習を統合し、カメラの半径方向に沿って BEV 表現を抽出することを目的としています。具体的には、以下に示すように、各位置の方位角に従って、従来のコンボリューションの規則的なサンプリング グリッドをそれに応じて回転させ、回転したサンプリング グリッドに基づいてコンボリューション演算を実行します。

ここに画像の説明を挿入します
AeConv メソッドで回転されたサンプリング グリッドは常にカメラの半径方向に沿っていることに注意してください (上の図に示すように)。したがって、AeConv は、異なる方向に関係なく、同じ BEV 特徴、つまり方位角不変の表現をサンプリングして学習することができます。従来の畳み込み演算の代わりに AeConv を使用し、AeConv ベースの BEV ネットワークを構築して、方向不変の BEV 特徴をさらにエンコードします。この方法により、多視点 3D オブジェクト検出の精度と堅牢性が向上します。
ここに画像の説明を挿入します
2.2
一定の方位角でターゲットの方位等変数アンカーを予測: 各位置の方位角に応じて方位等変数アンカーを再定義し、方位等変数アンカー (青い矢印) の方向に基づいて検出フレームと速度を計算します。方位に依存しない予測ターゲットを取得するには、
ここに画像の説明を挿入します
方位角等変数アンカーの方向が常にカメラの半径方向であることに注意してください。したがって、検出ヘッドは、方位角の変化の方向に従ってターゲットの方向、中心オフセット、および速度を予測することができ、それによって、方位角に関係なく予測されたターゲットと結果を取得できます。
ここに画像の説明を挿入します
2.3 カメラ分離仮想深度は、新しい深度予測方法であり、カメラです。固有パラメータに依存せず、異なるカメラ固有パラメータを持つ画像に対して統合された深度予測を実行できます。具体的な実装方法は、まずカメラ分離ディープネットワークを使用して、仮想焦点距離に基づいて仮想深度を予測します。次に、古典的なカメラ モデルに従って、仮想深度が実際の深度に変換されるため、予測された深度はさまざまなカメラの内部パラメータや視野角に適応できます。この方法は、深さ予測のロバスト性と一般化能力を効果的に向上させることができます。
ここに画像の説明を挿入します

実験

3.1 SOTA との比較
nuScenes 検証セットでの比較では、AeDet は ResNet-50 と ResNet-101 を使用してそれぞれ 50.1% の NDS と 56.1% の NDS を達成し、BEVFormer などの現在のマルチビュー 3D オブジェクト検出器 (4.4 以上) のパフォーマンスを上回りました。 %) および BEVDepth (2.6% 以上)。
ここに画像の説明を挿入します
nuScenes テスト セットでの比較では、AeDet は mAOE と mAVE をそれぞれ 3.4% と 2.8% 改善し、マルチビュー 3D 物体検出で 53.1% mAP と 62.0% NDS という最新の高度な結果を達成しました。
ここに画像の説明を挿入します
3.2 アブレーション実験
ベースライン BEVDepth と比較して、AeNet (等変方位コンボリューションおよび方位等変アンカー) は、同じパラメータ数で FLOP を 1.7% 増加させるだけで、NDS を 2 パーセントポイント (44.2 から) 改善しました。% は 46.2% に増加しました)。さらに、カメラ分離ディープ ネットワーク (CDN) により、mAP が 1.5%、NDS が 1.2% 向上します。
ここに画像の説明を挿入します

3.3 回転テスト
車両は時々大きな角度で回転する可能性があるため、さまざまな方向の検出の堅牢性は自動運転システムにとって非常に重要です。たとえば、小さなロータリーやコーナーでは、車両のステアリング角度が大きくなり、カメラの方向が大きく変わります。自動運転車は、さまざまな方向において正確な検出性能を維持する必要があります。検出器の堅牢性を検証するために、この状況をシミュレートする回転テストを提案します。車両を時計回りに 60 度回転させ、回転したビューを取得し、このビューで検出器を評価します。以下の表/図に示すように、回転ビューでは、BEVDepth は元のビューとは異なる予測結果を生成し、そのパフォーマンスは NDS 4.6% 低下しますが、AeDet は元のビューと回転ビューでほぼ同じ予測結果を生成します。
ここに画像の説明を挿入します
ここに画像の説明を挿入します

まとめ

要約すると、この論文は、方向不変の多視点 3D ターゲット検出を実現することを目的とした AeDet と呼ばれる検出器を提案します。これは、方位等変畳み込み (AeConv) や方位等変アンカーなどのさまざまな革新的なテクノロジーを使用して、方向不変の BEV 知覚を実現し、カメラを分離した仮想深度を通じてさまざまなカメラの深度予測を統合します。nuScenes データセットでは、AeDet は大幅なパフォーマンス向上を達成し、NDS の 62.0% に達し、既存の方法を上回り、オブジェクト指向と速度予測において優れた改善を示しました。この研究では、特にマルチカメラ ビュー下での 3D オブジェクト検出パフォーマンスの向上における等方位等変畳み込みと方位角等変アンカーの有効性を強調しています。

おすすめ

転載: blog.csdn.net/weixin_47869094/article/details/135115338