画像検出 - PETR: マルチビュー 3D オブジェクト検出のための位置埋め込み変換 - マルチビュー 3D オブジェクト検出のための位置埋め込み変換 (ECCV 2022)

まとめ
1 はじめに
2.関連作品
3. 方法
4. 実験
5。結論
参考文献

免責事項: この翻訳は単なる個人的な研究記録です。

記事情報

标题：PETR: マルチビュー 3D オブジェクト検出のための位置埋め込み変換 (ECCV 2022)

著者: Yingfei Liu*、Tiancai Wang*、Xiangyu Zhang、Jian Sun (* 均等寄稿)

記事リンク: https://arxiv.org/pdf/2203.05625.pdf

記事コード： https: //github.com/megvii-research/PETR

まとめ

この論文では、多視点 3D オブジェクト検出のための位置埋め込み変換 (PETR) を開発します。PETR は 3D 座標の位置情報を画像特徴にエンコードし、3D 位置認識機能を実現します。オブジェクトクエリは 3D 位置認識機能を認識し、エンドツーエンドのオブジェクト検出を実行できます。PETR は、標準の nuScenes データセットで最先端のパフォーマンス (NDS 50.4%、mAP 44.1%) を達成し、ベンチマークで 1 位にランクされます。これは、将来の研究のためのシンプルかつ堅牢なベースラインとして役立ちます。コードは https://github.com/megvii-research/PETR にあります。

キーワード: 位置埋め込み、トランスフォーマ、三次元物体検出

1 はじめに

自動運転システムにおいては、低コストであることから多視点画像に基づく3次元物体検出が注目を集めています。以前の研究 [6、33、49、34、48] では、主に単眼物体検出の観点からこの問題に対処しました。近年、DETR [4] はエンドツーエンドの物体検出への貢献で注目を集めています。DETR [4] では、各オブジェクトクエリはオブジェクトを表し、トランスフォーマーデコーダー内の 2D 特徴と相互作用して予測を生成します (図 1(a) を参照)。DETR3D [51] は DETR [4] フレームワークを単純に拡張したもので、エンドツーエンドの 3D オブジェクト検出のための直感的なソリューションを提供します。オブジェクトクエリによって予測された 3D 参照点は、カメラパラメータを通じて画像空間に投影され、すべてのカメラビューで 2D 特徴をサンプリングするために使用されます (図 1(b) を参照)。デコーダは、サンプリングされた特徴とクエリを入力として受け取り、ターゲットクエリの表現を更新します。

ただし、DETR3D [51] でのこの 2D から 3D への変換では、いくつかの問題が発生する可能性があります。まず、参照点の予測座標がそれほど正確ではない可能性があり、サンプリングされたフィーチャがターゲット領域から外れてしまいます。第二に、投影された点の画像特徴だけが収集されるため、大局的な観点から表現学習を行うことができません。さらに、複雑な特徴サンプリングプロセスにより、検出器の実用化が妨げられます。したがって、オンラインでの 2D から 3D への変換や特徴サンプリングを行わずにエンドツーエンドの 3D オブジェクト検出フレームワークを構築することは、依然として従来の問題です。

ここに画像の説明を挿入

図 1. DETR、DETR3D、および私たちが提案する PETR の比較。(a) DETR では、オブジェクトクエリは 2D フィーチャと対話して 2D 検出を実行します。(b) DETR3D は、生成された 3D 参照点を画像平面に繰り返し投影し、2D 特徴をサンプリングして、デコーダ内のオブジェクトクエリと対話します。(c) PETR は、3D 位置埋め込み (3D PE) を 2D 画像特徴にエンコードすることにより、3D 位置認識特徴を生成します。オブジェクトクエリは 3D 位置認識機能と直接対話し、3D 検出結果を出力します。

この論文では、私たちの目標は、DETR [4] に基づいた 3D オブジェクト検出のためのシンプルで洗練されたフレームワークを開発することです。私たちは、2D 機能をマルチビューから 3D 対応機能に変換できないか考えました。このようにして、ターゲットクエリを 3D 環境で直接更新できます。私たちの研究は、暗黙的ニューラル表現におけるこうした進歩に触発されています [17、8、32]。MetaSR [17] と LIFF [8] では、HR 座標情報を LR 特徴にエンコードすることにより、低解像度 (LR) 入力から高解像度 (HR) RGB 値が生成されます。この論文では、3D 位置埋め込みをエンコードすることにより、多視点画像の 2D 特徴を 3D 表現に変換することを試みます (図 1(c) を参照)。

これを達成するために、異なるビューによって共有されるカメラの錐台空間がまずグリッド座標に離散化されます。次に、座標はさまざまなカメラパラメーターによって変換され、3D ワールド空間の座標が取得されます。次に、バックボーンから抽出された 2D 画像の特徴と 3D 座標が単純な 3D 位置エンコーダに入力され、3D 位置認識特徴が生成されます。3D 位置認識機能は、トランスフォーマーデコーダ内のオブジェクトクエリと相互作用し、更新されたオブジェクトクエリはさらに、オブジェクトクラスと 3D 境界ボックスを予測するために使用されます。

DETR3D [51] と比較して、提案された PETR アーキテクチャは多くの利点をもたらします。オリジナルの DETR [4] のエンドツーエンドの精神を維持しながら、複雑な 2D から 3D への投影や特徴サンプリングを回避します。推論中に、3D 位置座標をオフラインで生成し、追加の入力位置埋め込みとして使用できます。実際に実装するのは比較的簡単です。

要約すると、私たちの貢献は次のとおりです。

我々は、多視点 3D オブジェクト検出のための、PETR と呼ばれるシンプルかつ洗練されたフレームワークを提案します。マルチビューフィーチャは、3D 座標をエンコードすることによって 3D ドメインに変換されます。3D 位置認識機能と対話することで、ターゲットクエリを更新し、3D 予測を生成できます。
マルチビュー 3D オブジェクト検出のために、新しい 3D 位置認識表現が導入されました。3D 位置情報を 2D マルチビューフィーチャにエンコードするために、単純な暗黙的な関数が導入されています。
実験の結果、PETR は標準の nuScenes データセット上で最先端のパフォーマンス (NDS 50.4%、mAP 44.1%) を達成し、3D オブジェクト検出リーダーボードで 1 位にランクされていることが示されています。

2.関連作品

2.1 トランスによるターゲット検出

Transformer [47] は、長期的な依存関係をモデル化するために広く使用されているアテンションブロックです。トランスフォーマーでは、通常、特徴が位置埋め込みとともに追加され、画像 [13、53、27]、シーケンス [15、47、11、10、54]、およびビデオ [1、24、52] の位置情報を提供します。Transformer XL [10] は、相対位置埋め込みを使用して、トークンのペアの相対距離をエンコードします。ViT [13] は、学習された位置埋め込みを、異なるブロック間の距離をエンコードするブロック表現に追加します。MViT [24] は、相対位置埋め込みの距離計算を分解し、時空間構造をモデル化します。

最近、DETR [4] は、エンドツーエンド検出のために 2D オブジェクト検出タスクにトランスフォーマーを導入しました。DETR [4] では、各オブジェクトはオブジェクトクエリとして表現され、トランスフォーマーデコーダを通じて 2D 画像の特徴と対話します。ただし、DETR [4] の収束速度は遅くなります。[44] は、収束が遅いのはクロスアテンションメカニズムとエンコーダのみの DETR の設計にあると考えています。さらに、多くの作品では位置事前分布を追加することで収束を高速化しています。SMAC [14] は、各クエリの空間事前分布として 2D ガウス状の重みマップを予測します。変形可能な DETR [58] は、ターゲットクエリを 2D 基準点に関連付け、まばらな相互作用を実行するための変形可能なクロスアテンションを提案しています。[50、30、26] は、高速収束のために位置事前分布を使用してアンカーまたはアンカーからターゲットクエリを生成します。SOLQ [12] は DETR [58] から拡張され、ターゲットクエリを使用して分類、ボックス回帰、インスタンスセグメンテーションを同時に実行します。

2.2 視覚ベースの 3D オブジェクト検出

ビジョンベースの 3D オブジェクト検出は、カメラ画像から 3D 境界ボックスを検出します。以前の多くの研究 [6、33、20、21、41、19、2、49、48] では、イメージビューで 3D オブジェクト検出を実行しています。M3D-RPN [2] では、3D オブジェクト検出のための位置認識機能を学習する深度認識畳み込みが導入されています。FCOS3D [49] は 3D グラウンドトゥルースを画像ビューに変換し、FCOS [46] を拡張して 3D 直方体パラメータを予測します。PGD [48] は FCOS3D [49] に従い、深度の不確実性を捉えるために確率的表現を使用します。これにより、深度推定の問題が大幅に軽減される一方で、より多くの計算予算と長い推論レイテンシが導入されます。DD3D [34] は、大規模な深度データセットに対する深い事前トレーニングにより 3D オブジェクト検出のパフォーマンスを大幅に向上できることを示しました。

最近、いくつかの作品が 3D ワールド空間で 3D オブジェクト検出を実行しようと試みています。OFT [39] と CaDDN [38] は、単眼画像の特徴を鳥瞰図 (BEV) にマッピングし、BEV 空間内の 3D オブジェクトを検出します。ImVoxelNet [40] は、3D ワールド空間に 3D ボリュームを構築し、マルチビューの特徴をサンプリングしてボクセル表現を取得します。次に、3D 畳み込みとドメイン固有のヘッドを使用して、屋内と屋外の両方のシーンでオブジェクトを検出します。CaDDN [38] と同様に、BEVDet [18] は Lift Splat Shoot [37] を使用して 2D マルチビュー機能を BEV 表現に変換します。BEV 表現の場合、直感的な方法で 3D オブジェクトを検出するために CenterPoint [55] ヘッドが使用されます。DETR [4] に続いて、DETR3D [51] は 3D オブジェクトをオブジェクトクエリとして表します。オブジェクトクエリから生成された 3D 参照点は、すべてのカメラビューとサンプル 2D フィーチャに繰り返し投影されます。

BEV ベースの方法では Z 軸エラーが発生する傾向があり、他の 3D 認識タスク (3D 車線検出など) のパフォーマンスの低下につながります。DETR ベースの手法では、より多くのトレーニングを強化してエンドツーエンドのモデリングからより多くのメリットを得ることができます。私たちの方法は DETR に基づいており、シンプルかつ効率的な方法で 3D オブジェクトを検出します。3D 位置情報を 2D 特徴にエンコードし、3D 位置認識機能を実現します。オブジェクトクエリは、投影エラーを発生させることなく、この 3D 位置認識表現と直接対話できます。

2.3 暗黙的なニューラル表現

暗黙的ニューラル表現 (INR) は通常、多層パーセプトロン (MLP) を介して座標を視覚信号にマッピングします。これは、3D オブジェクト [35、9、31]、3D シーン [32、43、36]、および 2D 画像 [17、8、45、42] をモデリングするための効率的な方法です。NeRF [32] は、特定のシーンを表すために完全に接続されたネットワークを採用しています。新しいビューを合成するには、カメラ光線に沿った 5D 座標がクエリとしてネットワークに入力され、体積密度とビューに依存する放射輝度が出力されます。MetaSR [17] および LIFF [8] では、HR 座標が LR 特徴にエンコードされ、任意のサイズの HR 画像を生成できます。私たちの方法は、3D オブジェクト検出のための INR の拡張として見ることができます。2D 画像を 3D 座標でエンコードして、3D 位置認識機能を取得します。3D 空間のアンカーは MLP によってオブジェクトクエリに変換され、さらに 3D 位置認識機能と相互作用して、対応する 3D オブジェクトを予測します。

3. 方法

3.1 全体的なアーキテクチャ

図 2 は、提案された PETR の全体的なアーキテクチャを示しています。N 個のビューからの画像 I があるとします $I=\{I_i∈R^{3×H_I×W_I},I=1 , 2、…、N\}$ 、画像をバックボーンネットワーク (例: ResNet-50 [16]) に入力して 2D マルチビュー特徴を抽出します。 $F^{2d}=\{F_i^{2d}∈R^{C×H_F×W_F},I=1,2,…,N\}$ . 3D 座標ジェネレーターでは、まずカメラの錐台空間が 3D メッシュに離散化されます。次に、グリッド座標がカメラパラメーターによって変換されて、3D ワールド空間の座標が生成されます。3D 座標は 2D マルチビュー特徴とともに 3D 位置エンコーダに入力され、その結果 3D 位置認識特徴 $F^{ 3d}=\{F_i^{3d}∈R^{C×H_F×W_F},I=1,2,…,N\}$ . 3D 特徴はさらに、トランスフォーマーデコーダーに入力され、クエリジェネレーターによって生成されたターゲットクエリと相互作用します。更新されたオブジェクトクエリは、オブジェクトクラスおよび 3D 境界ボックスを予測するために使用されます。

ここに画像の説明を挿入

図 2. 提案された PETR パラダイムのアーキテクチャ。マルチビュー画像はバックボーンネットワーク (ResNet など) に入力され、マルチビュー 2D 画像の特徴が抽出されます。3D 座標ジェネレーターでは、すべてのビューで共有されるカメラの錐台空間が 3D メッシュに離散化されます。グリッド座標はさまざまなカメラパラメーターによって変換され、3D ワールド空間の座標が取得されます。次に、2D 画像特徴と 3D 座標が提案された 3D 位置エンコーダに注入され、3D 位置認識特徴が生成されます。クエリジェネレーターによって生成されたターゲットクエリは、トランスデコーダーの 3D 位置認識機能との対話を通じて更新されます。更新されたクエリは、3D 境界ボックスとオブジェクトクラスを予測するためにさらに使用されます。

3.2 3D座標生成器

2D 画像と 3D 空間の関係を確立するには、カメラ錐台空間内の点を 3D 空間に投影します。これは、2 つの空間間に点が 1 対 1 で割り当てられているためです。 [7] と同様に、最初にカメラの錐台空間を離散化し、 $(W 、 H 、 D)$ グリッド。グリッド内の各点は、 $p^m_j=(u_j×d_j,v_j×d_j,d_j,1)^T として表すことができます。$ ，其中 $u_j,v_j)$ は画像内のピクセル座標です。dj $d_j$ は、画像平面に垂直な軸に沿った深さの値です。グリッドは異なるビューで共有されるため、 $p^ は、3D 投影 { 3d}_{i,j}=(x_{i,j},y_{i,j},z_{i,j},1)^T$ ：

ここに画像の説明を挿入

其中 $K_i∈R^{4×4}$ 是第 $i$ ビューの変換行列。3D ワールド空間からカメラ錐台空間への変換を確立します。図 2 に示すように、すべてのビューの 3D 座標は、変換されたシーンパノラマをカバーします。式 2 に示すように、3D 座標をさらに正規化します。

ここに画像の説明を挿入

その中 $x_{min},y_{min},z_{min},x_{max},y_{max},z_{max}]$ は、3D ワールド空間の関心領域 (RoI) です。 $H_F×W_F×D$ の正規化された座標は $P^{3d}=\ {P_i として転置されます。 ^{3d}∈R^{(D×4)×H_F×W_F},i=1,2,…,N\}$ 。

ここに画像の説明を挿入

図 3. 提案された 3D 位置エンコーダの概略図。マルチビュー 2D 画像の特徴は、次元削減のために 1×1 畳み込み層に入力されます。3D 座標ジェネレータによって生成された 3D 座標は、多層認識によって 3D 位置埋め込みに変換されます。3D 位置の埋め込みは、同じビューの 2D 画像特徴と合計されて、3D 位置認識特徴が生成されます。最後に、3D 位置認識特徴が平坦化され、トランスデコーダーへの入力として使用されます。F○は平坦化演算です。

3.3 3D ポジションエンコーダ

3D 位置エンコーダの目的は、2D 画像の特徴 $F^{2d}=\{F_i^ を変換することです。 {2d }∈R^{C×H_F×W_F},I=1,2,…,N\}$ に 3D 位置情報を関連付けて 3D 特徴を取得 $F^{3d}=\{F_i^{3d }∈R^{C×H_F×W_F},I=1,2,…,N\}$ . Meta-SR [17] と同様に、3D 位置エンコーダは次のように定式化できます。

ここに画像の説明を挿入

ここで、 $図 3 に示すように、 ψ (.)$ は位置エンコード関数です。次に、 $ψ (.)$ の詳細な実装。2D 特徴 F2d と 3D 座標 P3d が与えられると、P3d はまず多層認識 (MLP) ネットワークに入力され、3D 位置埋め込み (PE) に変換されます。次に、2D 特徴 F2d は 1×1 畳み込み層によって変換され、3D PE に追加されて 3D 位置認識特徴が形成されます。最後に、トランスデコーダーの主要コンポーネントとして 3D 位置認識機能を平坦化します。

3D PE 解析: 3D PE の効果を実証するために、正面図で PE の 3 点をランダムに選択し、これらの 3 点とすべてのマルチビュー PE の間の PE 類似度を計算します。図 4 に示すように、これらの点に近い領域は類似性が高くなる傾向があります。たとえば、正面図の左側の点を選択すると、左側の正面図の右側の領域の応答が比較的高くなります。3D PE が 3D 空間内の異なるビューの位置相関を暗黙的に確立することが示されています。

ここに画像の説明を挿入

図 4. 3D 位置埋め込みの類似性。赤い点は正面図で選択された位置です。これらの選択された位置の位置埋め込みとすべての画像ビューの間の類似性を計算しました。これは、これらの選択点に近い領域の類似性が高い傾向があることを示しています。

3.4 クエリジェネレータとデコーダ

クエリジェネレーター: オリジナルの DETR [4] は、学習可能なパラメーターのセットを最初のターゲットクエリとして直接使用します。変形可能な DETR [58] に続いて、DETR3D [51] は、初期化されたオブジェクトクエリに基づいて参照点を予測します。3D シーンでの収束の困難を軽減するために、Anchor-DETR [50] と同様に、最初に 3D ワールド空間で 0 から 1 まで均一に分布する学習可能なアンカーのセットを初期化します。次に、3D アンカーの座標が 2 つの線形層を持つ小規模な MLP ネットワークに入力され、初期オブジェクトクエリ $Q_0が生成されます。$ 。私たちの実践では、3D 空間でアンカーを使用すると PETR の収束を保証できますが、DETR での設定を使用したり、BEV 空間でアンカーを生成したりすると、満足のいく検出パフォーマンスを達成できません。詳細については、「実験」セクションを参照してください。

デコーダ: デコーダネットワークについては、DETR [4] の標準トランスフォーマーデコーダに従います。これには、L 個のデコーダ層が含まれます。ここで、デコーダ層のインタラクションプロセスを次のように定式化します。

ここに画像の説明を挿入

ここで、 $Ω_l$ デコーダの $l$ 層。 $Q_l∈R^{M×C}$ です $層l$ のターゲットクエリを更新しますM と C はそれぞれクエリとチャネルの数です。各デコーダ層では、オブジェクトクエリは、マルチヘッドアテンションおよびフィードフォワードネットワークを介して 3D 位置認識機能と対話します。反復的な対話の後、更新されたターゲットクエリは高レベルの表現を持ち、対応するターゲットを予測するために使用できます。

3.5 表と損失

検出ヘッドには主に、分類と回帰のための 2 つのブランチが含まれています。デコーダからの更新されたオブジェクトクエリは検出ヘッドに供給され、オブジェクトクラスと 3D 境界ボックスの確率を予測します。アンカー座標からの回帰分岐予測の相対オフセットに注目してください。DETR3D との公平な比較のために、分類には焦点損失 [25] を、3D バウンディングボックス回帰には L1 損失も使用します。とします。 $y = (c 、 b)$ 和 $\hat{y}=(\hat{c},\hat{b})$ はそれぞれ、グラウンドトゥルースと予測のセットを示します。ハンガリーのアルゴリズム [22] は、グラウンドトゥルースと予測の間のラベルの割り当てに使用されます。σ が最適な割り当て関数であると仮定すると、3D オブジェクト検出の損失は次のように要約できます。

ここに画像の説明を挿入

ここで、L _{cls は}分類の焦点損失を示し、L _regは回帰の L1 損失を示します。λ _{cls は}、さまざまな損失のバランスをとるために使用されるハイパーパラメータです。

4. 実験

4.1 データセットと指標

nuScenes ベンチマーク [3] でメソッドを検証します。NuScenes は、6 台のカメラ、1 台の LIDAR、5 台のレーダーによって収集されたデータで構成される大規模なマルチモーダルデータセットです。データセットには 1000 のシーンがあり、正式にはトレーニング/検証/テスト用にそれぞれ 700/150/150 シーンに分割されています。各シーンには、0.5 秒ごとに 3D 境界ボックスで完全に注釈が付けられた 20 個のビデオフレームがあります。公式の評価指標と一致して、nuScenes 検出スコア (NDS) と平均平均精度 (mAP)、平均変換誤差 (mATE)、平均スケール誤差 (mASE)、平均方向誤差 (mAOE)、平均速度を報告します。誤差 (mAVE)、平均平均属性誤差 (mAAE)。

4.2 実装の詳細

2D 特徴を抽出するには、ResNet [16]、Swin Transformer [27]、または VoVNetV2 [23] がバックボーンネットワークとして使用されます。C5 特徴 (ステージ 5 の出力) はアップサンプリングされ、C4 特徴 (ステージ 4 の出力) と融合されて、P4 特徴が生成されます。1/16 入力解像度の P4 フィーチャは 2D フィーチャとして使用されます。3D 座標生成の場合、CaDDN [38] で線形増分離散化 (LID) を行った後、深度軸に沿って 64 点をサンプリングします。X軸、Y軸は[-61.2m, 61.2m]、Z軸は[-10m, 10m]に設定します。3D ワールド空間の 3D 座標は [0, 1] に正規化されます。DETR3D [51] に従って、分類と回帰のバランスを取るために λcls=2.0 を設定しました。

PETR は、重み減衰 0.01 の AdamW [29] オプティマイザーを使用してトレーニングされます。学習率は $10^{−4}です。$ コサインアニーリング戦略で初期化され減衰します [28] $^{。}$ マルチスケールのトレーニング戦略が採用されており、短辺は [640,900] 以内でランダムに選択され、長辺は 1600 以下になります。CenterPoint [55] によると、インスタンスのグラウンドトゥルースは 3D 空間で [-22.5°、22.5°] の範囲でランダムに回転されます。すべての実験は、バッチサイズ 8 の 8 つの Tesla V100 GPU で 24 エポック (2 倍のスケジュール) でトレーニングされました。推論中にテスト時間拡張手法は使用されませんでした。

表 1. nuScenes val コレクションに関する最近の作業の比較。FCOS3D と PGD の結果は、テスト時間を増やすことで微調整され、テストされます。DETR3D、BEVDet、および PETR はトレーニングに CBGS を使用します [57]。†FCOS3D バックボーンから初期化されます。

ここに画像の説明を挿入

4.3 最先端技術の比較

表 1 に示すように、まず nuScenes val セットのパフォーマンスを最先端の手法と比較します。結果は、PETR が NDS メトリクスと mAP メトリクスの両方で最高のパフォーマンスを達成していることを示しています。CenterNet [56]、FCOS3D [49]、および PGD [48] は、典型的な単眼 3D オブジェクト検出方法です。FCOS3D [49] および PGD [48] と比較すると、ResNet-101 [16] を使用した PETR は、NDS の点でそれぞれ 2.7% および 1.4% 優れています。ただし、PGD [48] は明示的な深い監視により比較的低い mATE を達成します。さらに、統合ビューで 3D オブジェクトを検出するマルチビュー 3D オブジェクト検出手法 DETR3D [51] および BEVDet [18] と PETR を比較します。DETR3D [51] と BEVDet [18] は画像サイズとバックボーンの初期化に関して異なる設定に従っているため、公正な比較のために PETR を別々に比較します。私たちの方法は、NDS でそれぞれ 0.8% と 1.4% 優れています。

表 2 は、nuScenes テストセットでのパフォーマンスの比較を示しています。私たちの方法は、NDS と mAP でも最高のパフォーマンスを達成します。BEVDet [18] との公正な比較のために、Swin-S バックボーンを備えた PETR も 2112×768 の画像サイズを使用してトレーニングされます。研究では、mAP および NDS において PETR は BEVDet [18] よりもそれぞれ 3.6% および 1.8% 高いことが示されています。特に、Swin-B を使用した PETR は、外部データを使用する既存の方法と比較して同等のパフォーマンスを達成します。外部データを使用する場合、VOVNetV2 [23] バックボーンを備えた PETR は 50.4% の NDS と 44.1% の mAP を達成します。私たちの知る限り、PETR は NDS の 50.0% を超えた最初の視覚ベースの方法です。

ここに画像の説明を挿入

図 5. PETR の収束と速度解析。(a) PETR と DETR3D の収束比較 [51]。PETR は初期段階では収束が遅く、完全に収束するには比較的長いトレーニングスケジュールが必要です。(b) さまざまなバックボーンと入力サイズのパフォーマンスと速度の分析。

表 2. nuScenes テストセットに関する最近の作業の比較。*外部データを使用したトレーニングではテスト時間が増加します。

ここに画像の説明を挿入

また、PETR の収束と検出速度も分析します。まず、DETR3D [51] と PETR の収束を比較します (図 5(a) を参照)。最初の 12 エポックの間、PETR は DETR3D [51] よりも比較的ゆっくりと収束し、最終的にはより優れた検出パフォーマンスを達成します。これは、PETR が完全融合するには比較的長い訓練スケジュールを必要とすることを示唆しています。その理由は、PETR がグローバルアテンションを通じて 3D 相関関係を学習するのに対し、DETR3D [51] はローカル領域の 3D シーンを認識するためであると推測されます。図 5(b) は、さまざまな入力サイズでの PETR の検出パフォーマンスと速度をさらに示しています。FPS は、単一の Tesla V100 GPU で測定されます。同じ画像サイズ (例: 1056×384) の場合、PETR は 10.7 FPS で推論しますが、BEVDet [18] は 4.2 FPS で推論します。BEVDet [18] の速度は NVIDIA 3090 GPU で測定されており、Tesla V100 GPU よりも高速であることに注意してください。

表 3. 3D 位置埋め込みの効果。2D PE は、DETR で使用される一般的な位置埋め込みです。MV は、さまざまなビューを区別するためのマルチビュー位置埋め込みです。3D PE は、我々の手法で提案する 3D 位置埋め込みです。

ここに画像の説明を挿入

表 4. 離散カメラ錐台の空間を分析するためのさまざまな方法と、正規化された 3D 座標のさまざまな関心領域 (ROI) 範囲。UD は均一な離散化であり、LID は線形増加離散化です。

ここに画像の説明を挿入

4.4 アブレーション研究

このセクションでは、PETR のいくつかの重要なコンポーネントについてアブレーション研究を実行します。すべての実験は、ResNet-50 バックボーンの単一ステージ C5 機能を使用して、CBGS なしで実行されます [57]。

3D 位置埋め込みの効果。さまざまな位置埋め込み (PE) の影響を評価します (表 3 を参照)。DETR で標準 2D PE のみを使用する場合、モデルは 6.9% mAP にのみ収束します。次に、異なるビューを区別するためにマルチビュープリア (ビュー番号を PE に変換する) を追加し、わずかな改善をもたらしました。3D 座標から生成された 3D PE のみを使用する場合、PETR は 30.5% の mAP を直接達成できます。これは、3D PE が 3D シーンを認識する前に強力な位置を提供することを示唆しています。さらに、3D PE と 2D PE、およびマルチビュー事前分布を組み合わせると、パフォーマンスを向上させることができます。主な改良点は 3D PE によるものであり、実際には 2D PE/マルチビュープリアをオプションで使用できることに注意してください。

3D 座標ジェネレーター。3D 座標ジェネレーターで、カメラ錐台空間のパースビューを 3D メッシュに離散化します。3D ワールド空間で変換された座標は、関心領域 (RoI) によってさらに正規化されます。

表 5. PETR のさまざまなコンポーネントについて提案されているアブレーション研究。

ここに画像の説明を挿入

ここでは、さまざまな離散化手法と RoI 範囲の有効性を検討します (表 4 を参照)。均一離散化 (UD) は、線形増分離散化 (LID) と比較して同様のパフォーマンスを示します。また、いくつかの一般的な ROI 領域を試したところ、ROI 範囲 (-61.2m、-61.2m、-10.0m、61.2m、61.2m、および 10.0m) で他の領域よりも優れたパフォーマンスが得られました。

3Dポジションエンコーダ。3D 位置エンコーダは、3D 位置を 2D フィーチャにエンコードするために使用されます。ここでは、まず、3D 座標を 3D 位置埋め込みに変換する際の多層認識 (MLP) の影響を調査します。表 5(a) から、MLP を使用しないベースラインと比較して、単純な MLP を使用したネットワークは、NDS と mAP でそれぞれ 4.8% と 5.3% パフォーマンスを向上させることができることがわかります (2D 特徴のチャネル数を調整して、 D×4）。2 つの 3×3 畳み込み層を使用する場合、3×3 畳み込みによって 2D フィーチャと 3D 位置の間の対応が破壊されるため、モデルは収束しません。さらに、表 5(b) では、2D 画像の特徴を 3D PE と融合するさまざまな方法を比較しています。連結演算は、乗算融合よりも優れたパフォーマンスを発揮しながら、加算と比較して同様のパフォーマンスを実現します。

クエリビルダー。表 5(c) は、さまざまなアンカー生成クエリの効果を示しています。ここでは、「None」、「Fix-BEV」、「Fix-3D」、「Learned-3D」の 4 種類のアンカーを比較します。元の DETR (「なし」) は、学習可能なパラメーターのセットをアンカーなしでターゲットクエリとして直接使用します。ターゲットクエリのグローバルな性質により、モデルは収束できません。「Fix-BEV」とは、BEV 空間内に 39×39 個の固定アンカーを生成することを指します。「Fix-3D」とは、3D ワールド空間に固定されるアンカーポイントの数が 16×16×6 であることを意味します。「Learned-3D」は、3D 空間で定義された学習可能なアンカーです。「Fix-BEV」と「Fix-3D」は両方とも、学習されたアンカーよりもパフォーマンスが低いことがわかります。また、600 ～ 1500 の範囲にあるアンカーの数も調査します (表 5(d) を参照)。アンカー数1500本で最高の性能を発揮するモデルです。アンカーの数に応じて計算コストが増加することを考慮して、トレードオフとして単純に 1500 個のアンカーを使用します。

ここに画像の説明を挿入

図 6. BEV および画像ビューでの検出結果の定性分析。スコアしきい値は 0.25、バックボーンは ResNet-101 です。3D 境界ボックスは、異なるクラスを区別するために異なる色で描画されます。

ここに画像の説明を挿入

図 7. マルチビュー画像上のターゲットクエリ (トラックに対応) によって生成されたアテンションマップの視覚化。アテンションマップでは、左前景、左後景ともに反応が高かった。

4.5 視覚化

図 6 は、いくつかの定性的テスト結果を示しています。BEV 空間およびイメージビューで 3D バウンディングボックスを投影および描画します。BEV 空間に示されているように、予測された境界ボックスはグラウンドトゥルースに近いです。これは、私たちの方法が良好な検出性能を達成していることを示しています。また、ターゲットクエリから生成されたアテンションマップを多視点画像上で視覚化します。図 7 に示すように、ターゲットクエリは、たとえ異なるビューであっても、同じターゲットに焦点を当てる傾向があります。これは、3D 位置埋め込みが異なるビュー間の位置相関を確立できることを示唆しています。最後に、いくつかの失敗例を示します (図 8 を参照)。失敗したケースは赤と緑の丸でマークされます。赤い円は、いくつかの未検出の小さな物体を示しています。緑色の円内のオブジェクトは誤って分類されています。誤検出は主に、異なる車両の外観の類似性が高い場合に発生します。

ここに画像の説明を挿入

図 8. PETR の失敗例。失敗したケースには赤と緑の丸が付けられます。赤い円は、未検出の小さなターゲットです。緑色の円は誤って分類されたターゲットです。

5。結論

このペーパーでは、マルチビュー 3D オブジェクト検出のためのシンプルかつ洗練されたソリューションを紹介します。3D 座標の生成と位置エンコードを通じて、2D フィーチャを 3D 位置認識フィーチャ表現に変換できます。この 3D 表現はクエリベースの DETR アーキテクチャに直接組み込むことができ、エンドツーエンドの検出が可能になります。最先端のパフォーマンスを実現し、将来の研究の強力なベースラインとして機能します。

謝辞: この研究は、国家重点研究開発プログラム (番号 2017YFA0700800) および北京人工知能アカデミー (BAAI) の支援を受けました。

参考文献

Bertasius, G.、Wang, H.、Torresani, L.: ビデオを理解するために必要なのは時空への注意だけですか。arXiv プレプリント arXiv:2102.05095 2(3)、4 (2021) 3
ブラジル、G.、Liu、X.: M3d-rpn: 物体検出のための単眼 3D 領域提案ネットワーク。掲載: コンピュータービジョンに関する IEEE/CVF 国際会議の議事録。pp. 9287–9296 (2019) 3
Caesar, H.、Bankiti, V.、Lang, AH、Vora, S.、Liong, VE、Xu, Q.、Krishnan, A.、Pan, Y.、Baldan, G.、Beijbom, O.: nuscenes:自動運転用のマルチモーダルデータセット。掲載: コンピュータービジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp.11621–11631 (2020) 8
Carion, N.、Massa, F.、Synnaeve, G.、Usunier, N.、Kirillov, A.、Zagoruyko, S.: トランスを使用したエンドツーエンドの物体検出。開催日: コンピュータービジョンに関する欧州会議。213–229ページ。スプリンガー (2020) 1、2、3、4、7
Chabra, R.、Lenssen, JE、Ilg, E.、Schmidt, T.、Straub, J.、Lovegrove, S.、Newcombe, R.: 深い局所形状: 詳細な 3D 再構築のための局所 SDF 事前分布の学習。開催場所: コンピュータービジョンに関する欧州会議。608–625ページ。スプリンガー (2020) 4
Chen, X.、Kundu, K.、Zhang, Z.、Ma, H.、Fidler, S.、Urtasun, R.: 自動運転のための単眼 3D 物体検出。掲載: コンピュータービジョンとパターン認識に関する IEEE 会議の議事録。pp.2147–2156 (2016) 1、3
Chen, Y.、Liu, S.、Shen, X.、Jia, J.: Dsgn: 3D オブジェクト検出のためのディープステレオジオメトリネットワーク。掲載: コンピュータービジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp. 12536–12545 (2020) 5
Chen, Y.、Liu, S.、Wang, X.: ローカル暗黙的イメージ関数を使用した連続イメージ表現の学習。参照: コンピュータービジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp.8628–8638 (2021) 2、4
Chen, Z.、Zhang, H.: 生成形状モデリングのための暗黙的フィールドの学習。参照: コンピュータービジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp.5939–5948 (2019) 4
Dai、Z.、Yang、Z.、Yang、Y.、Carbonell、J.、Le、QV、Salakhutdinov、R.: Transformer-xl: 固定長のコンテキストを超えた注意深い言語モデル。arXiv プレプリント arXiv:1901.02860 (2019) 3
Devlin, J.、Chang, MW、Lee, K.、Toutanova, K.: Bert: 言語理解のための深い双方向トランスフォーマーの事前トレーニング。arXiv プレプリント arXiv:1810.04805 (2018) 3
Dong, B.、Zeng, F.、Wang, T.、Zhang, X.、Wei, Y.: Solq: クエリを学習してオブジェクトをセグメント化します。神経情報処理システムの進歩 34 (2021) 3
Dosovitskiy, A.、Beyer, L.、Kolesnikov, A.、Weissenborn, D.、Zhai, X.、Unterthiner, T.、Dehghani, M.、Minderer, M.、Heigold, G.、Gelly, S.、他: 画像は 16x16 ワードの価値があります: 大規模な画像認識のためのトランスフォーマー。arXiv プレプリント arXiv:2010.11929 (2020) 3
Gao, P.、Zheng, M.、Wang, X.、Dai, J.、Li, H.: 空間的に変調された同時注意による detr の高速収束。掲載: コンピュータービジョンに関する IEEE/CVF 国際会議の議事録。pp.3621–3630 (2021) 3
Gehring, J.、Auli, M.、Grangier, D.、Yarats, D.、Dauphin, YN: 畳み込みシーケンスからシーケンスへの学習。参加: 機械学習に関する国際会議。1243–1252ページ。PMLR (2017) 3
He、K.、Zhang、X.、Ren、S.、Sun、J.: 画像認識のための深層残差学習。掲載: コンピュータービジョンとパターン認識に関する IEEE 会議の議事録。pp. 770–778 (2016) 4、8、9
Hu, X.、Mu, H.、Zhang, X.、Wang, Z.、Tan, T.、Sun, J.: Meta-sr: 超解像のための任意の倍率ネットワーク。参照: コンピュータービジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp.1575–1584 (2019) 2、4、6
Huang, J.、Huang, G.、Zhu, Z.、Du, D.: Bevdet: 鳥瞰図での高性能マルチカメラ 3D オブジェクト検出。arXiv プレプリント arXiv:2112.11790 (2021) 4、9、10
Jorgensen, E.、Zach, C.、Kahl, F.: 単眼 3D オブジェクト検出とボックスフィッティングは、交差オーバーユニオン損失を使用してエンドツーエンドでトレーニングされました。arXiv プレプリント arXiv:1906.08070 (2019) 3
Kehl, W.、Manhardt, F.、Tombari, F.、Ilic, S.、Navab, N.: Ssd-6d: rgb ベースの 3d 検出と 6d 姿勢推定を再び優れたものにします。掲載: コンピュータービジョンに関する IEEE 国際会議の議事録。pp.1521–1529 (2017) 3
Ku、J.、Pon、AD、Waslander、SL: 正確な提案と形状の再構築を活用した単眼 3D オブジェクト検出。掲載: コンピュータービジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp.11867–11876 (2019) 3
Kuhn, HW: 割り当て問題に対するハンガリーの方法。海軍研究兵站季報 2(1-2)、83 ～ 97 (1955) 8
Lee, Y.、Park, J.: Centermask: リアルタイムのアンカーフリーのインスタンスセグメンテーション。掲載: コンピュータービジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp.13906–13915 (2020) 8、9
Li, Y.、Wu, CY、Fan, H.、mangalam, K.、Xiong, B.、Malik, J.、Feichtenhofer, C.: 分類と検出のための改良されたマルチスケールビジョントランスフォーマー。arXiv プレプリント arXiv:2112.01526 (2021) 3
Lin、TY、Goyal、P.、Girshick、R.、He、K.、Doll´ar、P.: 高密度物体検出の焦点損失。掲載: コンピュータービジョンに関する IEEE 国際会議の議事録。pp.2980–2988 (2017) 8
Liu, S.、Li, F.、Zhang, H.、Yang, X.、Qi, X.、Su, H.、Zhu, J.、Zhang, L.: Dab-detr: 動的アンカーボックスの方が優れたクエリですデトラのために。arXiv プレプリント arXiv:2201.12329 (2022) 3
Liu, Z.、Lin, Y.、Cao, Y.、Hu, H.、Wei, Y.、Zhang, Z.、Lin, S.、Guo, B.: Swin トランスフォーマー: シフトウィンドウを使用した階層型ビジョントランスフォーマー。掲載: コンピュータービジョンに関する IEEE/CVF 国際会議の議事録。pp. 10012–10022 (2021) 3、8
Loshchilov, I.、Hutter, F.: Sgdr: ウォームリスタートによる確率的勾配降下法。arXiv プレプリント arXiv:1608.03983 (2016) 8
Loshchilov, I.、Hutter, F.: 分離された重み減衰正則化。arXiv プレプリント arXiv:1711.05101 (2017) 8
Meng, D.、Chen, X.、Fan, Z.、Zeng, G.、Li, H.、Yuan, Y.、Sun, L.、Wang, J.: 高速トレーニング収束のための条件付き detr。掲載: コンピュータービジョンに関する IEEE/CVF 国際会議の議事録。pp.3651–3660 (2021) 3
Mescheder, L.、Oechsle, M.、Niemeyer, M.、Nowozin, S.、Geiger, A.: 占有ネットワーク: 関数空間での 3D 再構成の学習。参照: コンピュータービジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp. 4460–4470 (2019) 4
Mildenhall, B.、Srinivasan, PP、Tancik, M.、Barron, JT、Ramamoorthi, R.、Ng, R.: Nerf: ビュー合成のための神経放射フィールドとしてシーンを表現します。開催日: コンピュータービジョンに関する欧州会議。405–421ページ。スプリンガー (2020) 2, 4
Mousavian, A.、Anguelov, D.、Flynn, J.、Kosecka, J.: 深層学習と幾何学を使用した 3D バウンディングボックス推定。掲載: コンピュータービジョンとパターン認識に関する IEEE 会議の議事録。pp. 7074–7082 (2017) 1、3
Park, D.、Ambrus, R.、Guizilini, V.、Li, J.、Gaidon, A.: 単眼 3D 物体検出には擬似ライダーが必要ですか? 掲載: コンピュータービジョンに関する IEEE/CVF 国際会議の議事録。pp.3142–3152 (2021) 1、3
Park、JJ、Florence、P.、Straub、J.、Newcombe、R.、Lovegrove、S.: Deepsdf: 形状表現のための連続符号付き距離関数の学習。参照: コンピュータービジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp.165–174 (2019) 4
Peng, S.、Niemeyer, M.、Mescheder, L.、Pollefeys, M.、Geiger, A.: 畳み込み占有ネットワーク。開催場所: コンピュータービジョンに関する欧州会議。523–540ページ。スプリンガー (2020) 4
Philion, J.、Fidler, S.: リフト、スプラット、シュート: 暗黙的に 3D に投影解除することで、任意のカメラリグからの画像をエンコードします。開催場所: コンピュータービジョンに関する欧州会議。194–210ページ。スプリンガー (2020) 4
Reading, C.、Harakeh, A.、Chae, J.、Waslander, SL: 単眼 3D オブジェクト検出のためのカテゴリー深度分布ネットワーク。参照: コンピュータービジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp.8555–8564 (2021) 3、4、8
Roddick, T.、Kendall, A.、Cipolla, R.: 単眼 3D オブジェクト検出のための正射投影特徴変換。arXiv プレプリント arXiv:1811.08188 (2018) 3
Rukhovich, D.、Vorontsova, A.、Konushin, A.: Imvoxelnet: 単眼および多視点の汎用 3D オブジェクト検出のための画像からボクセルへの投影。掲載: コンピュータービジョンのアプリケーションに関する IEEE/CVF 冬季会議の議事録。pp.2397–2406 (2022) 3
Simonelli, A.、Bulo, SR、Porzi, L.、L´opez-Antequera, M.、Kontschieder, P.: もつれを解く単眼 3D オブジェクト検出。掲載: コンピュータービジョンに関する IEEE/CVF 国際会議の議事録。pp. 1991–1999 (2019) 3
Sitzmann, V.、Martel, J.、Bergman, A.、Lindell, D.、Wetzstein, G.: 周期的活性化関数による暗黙的な神経表現。神経情報処理システムの進歩 33, 7462–7473 (2020) 4
Sitzmann, V.、Zollhâfer, M.、Wetzstein, G.: シーン表現ネットワーク: 連続 3D 構造認識ニューラルシーン表現。神経情報処理システムの進歩 32 (2019) 4
Sun, Z.、Cao, S.、Yang, Y.、Kitani, KM: 物体検出のためのトランスフォーマーベースのセット予測の再考。掲載: コンピュータービジョンに関する IEEE/CVF 国際会議の議事録。pp.3611–3620 (2021) 3
Tancik, M.、Srinivasan, P.、Mildenhall, B.、Fridovich-Keil, S.、Raghavan, N.、Singhal, U.、Ramamoorthi, R.、Barron, J.、Ng, R.: フーリエ特徴量ネットワークは低次元領域で高周波関数を学習します。神経情報処理システムの進歩 33, 7537–7547 (2020) 4
Tian, Z.、Shen, C.、Chen, H.、He, T.: Fcos: 完全な畳み込みによる 1 段階の物体検出。掲載: コンピュータービジョンに関する IEEE/CVF 国際会議の議事録。pp. 9627–9636 (2019) 3
Vaswani, A.、Shazeer, N.、Parmar, N.、Uszkoreit, J.、Jones, L.、Gomez, AN、Kaiser, L.、Polosukhin, I.: 必要なのは注意力だけです。神経情報処理システムの進歩 30 (2017) 3
Wang, T.、Xinge, Z.、Pang, J.、Lin, D.: 確率的および幾何学的深度: 遠近法でのオブジェクトの検出。開催場所: ロボット学習に関するカンファレンス。1475–1485ページ。PMLR (2022) 1、3、9
Wang, T.、Zhu, X.、Pang, J.、Lin, D.: Fcos3d: 完全畳み込み 1 ステージ単眼 3D オブジェクト検出。掲載: コンピュータービジョンに関する IEEE/CVF 国際会議の議事録。pp. 913–922 (2021) 1、3、9
Wang, Y.、Zhang, X.、Yang, T.、Sun, J.: アンカー detr: トランスベースの検出器のクエリ設計。arXiv プレプリント arXiv:2109.07107 (2021) 3、7
Wang, Y.、Vitor Campagnolo, G.、Zhang, T.、Zhao, H.、Solomon, J.: Detr3d: 3d-to-2d クエリによるマルチビュー画像からの 3d オブジェクト検出。日: ロボット学習に関するカンファレンスにて。pp.180–191 (2022) 1、2、4、7、8、9、10
Wu、CY、Li、Y.、mangalam、K.、Fan、H.、Xiong、B.、Malik、J.、Feichtenhofer、C.: Memvit: 効率的な長期ビデオ認識のためのメモリ拡張マルチスケールビジョントランスフォーマー。arXiv プレプリント arXiv:2201.08383(2022)
Wu, K.、Peng, H.、Chen, M.、Fu, J.、Chao, H.: ビジョントランスフォーマーの相対位置エンコーディングを再考し、改善しました。掲載: コンピュータービジョンに関する IEEE/CVF 国際会議の議事録。pp.10033–10041 (2021) 3
Yang、Z.、Dai、Z.、Yang、Y.、Carbonell、J.、Salakhutdinov、RR、Le、QV: Xlnet: 言語理解のための一般化された自己回帰事前トレーニング。神経情報処理システムの進歩 32 (2019) 3
ying、T.、Zhou、X.、Krahenbuhl、P.: センターベースの 3D オブジェクトの検出と追跡。掲載: コンピュータービジョンとパターン認識に関する IEEE/CVF 会議の議事録。pp.11784–11793 (2021) 4、8
Zhou, X.、Wang, D.、Krâhenbrèuhl, P.: 点としてのオブジェクト。arXiv プレプリント arXiv:1904.07850 (2019) 9
Zhu, B.、Jiang, Z.、Zhou, X.、Li, Z.、Yu, G.: 点群 3D オブジェクト検出のためのクラスバランスのとれたグループ化とサンプリング。arXiv プレプリント arXiv:1908.09492 (2019) 9、11
Zhu, X.、Su, W.、Lu, L.、Li, B.、Wang, X.、Dai, J.: 変形可能な detr: エンドツーエンドの物体検出用の変形可能なトランス。arXiv プレプリント arXiv:2010.04159 (2020) 3、7

画像検出 - PETR: マルチビュー 3D オブジェクト検出のための位置埋め込み変換 (ECCV 2022)

画像検出 - PETR: マルチビュー 3D オブジェクト検出のための位置埋め込み変換 - マルチビュー 3D オブジェクト検出のための位置埋め込み変換 (ECCV 2022)

まとめ

1 はじめに

2.関連作品

2.1 トランスによるターゲット検出

2.2 視覚ベースの 3D オブジェクト検出

2.3 暗黙的なニューラル表現

3. 方法

3.1 全体的なアーキテクチャ

3.2 3D座標生成器

3.3 3D ポジションエンコーダ

3.4 クエリジェネレータとデコーダ

3.5 表と損失

4. 実験

4.1 データセットと指標

4.2 実装の詳細

4.3 最先端技術の比較

4.4 アブレーション研究

4.5 視覚化

5。結論

参考文献

おすすめ