MonoDETR: 単眼 3D 物体検出用の深度ガイド付きトランスフォーマー 論文通訳

1.概要

単眼での目標検出は、自動運転の分野において常に困難な課題でした。現在のほとんどの方法では、畳み込みベースの 2D 検出器が使用されており、最初にオブジェクトの中心を検出し、次に中心付近の特徴を通じて 3D 属性を予測します。

ただし、局所的な特徴だけから 3D 特徴を予測するのは非効率的であり、一部の遠距離オブジェクト間の深度関係が考慮されていないため、多くの意味のある情報が失われます。

この研究では、著者は DETR フレームワークに基づいた単眼検出用のネットワークを紹介します。著者は元の変圧器ネットワークを変更し、深度ガイド付き変圧器構造を追加しました。著者はこのネットワーク構造を MonoDETR と名付けました。

具体的には、ビジュアル エンコーダを使用して画像の特徴を抽出することに加えて、著者は、前景の深度マップを予測するために深度エンコーダも導入し、その後深度エンベディングに変換しました。その後、従来の DETR または BevFormer と一致し、3D オブジェクト クエリを使用して、以前に生成されたビジョン エンベディングと深度エンベディングでそれぞれセルフ アテンションとクロス アテンションを実行し、最終的な 2D および 3D 結果がデコーダを通じて取得されます。この方法により、各 3D オブジェクトは、局所的な視覚特徴に限定されるのではなく、深度ガイド領域 (埋め込み) を通じて 3D 情報を取得します。

ここに画像の説明を挿入します

2. はじめに

LIDAR やマルチビューに基づく 3D 検出タスクと比較すると、単眼 3D 検出は比較的困難です。なぜなら、依存できる 3D 深度情報やマルチビューの幾何学的関係がないからです。したがって、対応するテスト結果はあまり良くありません。

ここに画像の説明を挿入します
これらの問題を解決するために、本論文ではDETR の 2D 検出フレームワークに基づいた
ネットワーク構造を提案します。上の図の b に示すように、この構造には、ビジョン エンコーダとデプス エンコーダという 2 つの並列部分が含まれています。

ここに画像の説明を挿入します

焦点: 深い情報を学ぶには? この論文では、「光」監視を使用して入力画像の奥行き情報を取得します。具体的には、深度予測器が画像バックボーンの後に接続され、前景深度マップを出力します。同時に、プロセス中に生成された深度特徴が後続の深度エンコーダーに入力され、深度情報が抽出されます。同時に、出力される前景マップを監視します。この監視は、オブジェクトの離散的な深さであるラベル付きオブジェクトのみで構成されます。これにより、高密度の深度マップ ラベルが不要になります。データに対するプレッシャーの軽減。使用される深度情報も取得できます。

これら 2 つのエンコーダーの後に、オブジェクト クエリを使用してビジュアル エンベディングと深度エンベディングからの情報を集約し、オブジェクトを検出するトランスフォーマー構造を続けます。

ここでの利点は明らかで、現在の自動運転分野におけるさまざまな大量データ パイプラインと比較して、この方法では従来のオブジェクトのラベリング結果だけで検出プロセス全体を完了できます。追加の高密度深度マップや LIDAR 情報は必要ありません。そしてkittiでSOTAの結果を達成しました。

同時に、ここで説明した深度エンコーダーは、BEVFormer などのマルチビジュアル 3D 検出効果を直接強化するプラグ アンド プレイ プラグインとしても使用できます。(もちろん、これらの点は私にとっては役に立たないように思えます〜)

3. 関連作品

自分で論文を読みましょう~ この記事とはあまり関係ありません

突然、興味深い紹介文を見つけたので、ここで簡単に説明します。

DETRベースメソッド

  1. MonoDTR: トランスフォーマーを導入するだけでデータ抽出が強化されます。これは依然として、オブジェクト中心に基づいて抽出された局所特徴であり、厳密には DETR に基づいていない詳細については、「MonoDTR 解釈」を参照してください。
  2. DETR3D および PETR v2: detr 構造を使用したマルチビュー 3D 検出。ただし、変換ベースのエンコーダーは使用されません。同様に、奥行き情報は使用されず、視覚情報のみが使用されます。具体的な参考情報については、 DETR 3Dを解釈するための PETR v2を参照してください
  3. BEVFormer: 情報抽出のために画像機能から bev 機能にエンコーダーを追加しました。その後の 3D 検出は bev 空間で実行されます。良い!BEV旧解釈

4. 方法

上の写真のように、写真を見たり論文について話したりするという、とても大好きな部分の時間が再びやってきました。

ここに画像の説明を挿入します

4.1特徴抽出

視覚的な特徴

ここに画像の説明を挿入します
あまり詳しくは説明しませんが、画像の高次の特徴を抽出するために使用される従来の CNN ネットワークは、基本的に resnet を使用することで収束します。ここで設定するダウンサンプリング率は 1/8、1/16、1/32 です。この論文では、3 層 fpn の結果は使用されませんが、最も豊富な意味情報を持つ最後の層が視覚特徴入力ビジョン エンコーダーとして選択されます。

深さの特徴

ここに画像の説明を挿入します
ここでは、最初にバックボーンから抽出された 3 層の特徴に深い特徴が融合 (要素単位で追加) されますが、主な目的は小さなターゲットの特徴を保持することです。次に、3*3 ネットワークを使用して深度特徴を抽出します。

前景深度マップ

深い機能をより効率的かつ豊富にするため。ここでさらに深い監視が追加されます。深度特徴を 1*1 畳み込みに渡すことにより、前景深度マップが生成されます。そして、個別の GT ベースのディープラベルを通じてそれを監視します。特定のルール: 2D bbox 内のピクセルは、オブジェクトの深度に均一に割り当てられます。2 つの bbox 内のピクセルの場合は、カメラに最も近い距離値を選択して割り当てます。同時に、ここでは深度も離散的に符号化されます。参照方法については、「単眼 3D オブジェクト検出のためのカテゴリカル深度分布ネットワーク」を参照してください。

簡単な要約: 検出距離[dx, dy] [d_x, d_y]で[ d×dはい]をエンコードするには、線形増加離散化 (LID) 分布を使用し、合計で k+1 個のビンにエンコードします。このうち、k が前景、最後の 1 が背景です。使用される具体的な式は次のとおりです。
ここに画像の説明を挿入します
ここでδ \deltaδは、関連するパラメータの許容誤差です。これは、検出距離と必要なビンの数に基づいて取得できます。

4.2 深度ガイド変圧器

ビジュアルエンコーダーと深度エンコーダー

ここに画像の説明を挿入します
著者は 2 つのエンコーダを使用して、取得した画像と深度特徴に対してさらにグローバルな特徴抽出を実行します。ここで著者は、フィーチャーの次元を説明することによって、トランスフォーマーを使用するときに実行する必要があるフィーチャーの平坦化操作も思慮深く示しています。寸法はH * W / 1 6 2 H * W / 16^2です。HW /1 62 H ∗ W / 3 2 2 H*W/32^2 HW /3 2具体的な構成は、各エンコーダブロックがセルフアテンションとffnで構成されます。ここでのエンコーダの機能は、ローカル機能をグローバル機能にアップグレードすることです。視覚特徴にはより複雑な情報が含まれるため、視覚情報をより適切に抽出するために 3 つのブロックが使用されます。

深度ガイド付きデコーダ

ここに画像の説明を挿入します
核心部分に焦点を当てます。

エンコーダから抽出されたグローバル特徴量f D e f_D^eによるとfD f V e f_V^e fV、著者は深いガイダンスに基づいてデコーダ構造を設計しました。プリセット オブジェクト クエリ q を使用してf D e f_D^eを合計しますfD f V e f_V^e fV交差注意をしてください。各ブロックには、深度クロス アテンション、クエリ間セルフ アテンション、ビジュアル クロス アテンション、および FFN が含まれています。この方法での出力オブジェクトの埋め込みには、視覚情報と奥行き情報の両方が含まれるため、予測作業をより適切に実行できます。

情報をより適切に統合および抽出するために、作成者は合計 3 つのブロックを使用してデコーダ作業を実行しました。

深度位置エンコーディング

トランスには位置の埋め込みが必要です。他の構造のように、位置エンコーディングとして sin 関数を直接使用することはありません。代わりに、学習可能な深度位置エンコーディングが使用されます。具体的な詳細は、前のシーケンスで取得した深度マップを使用して差分を取得し、f D e f_D^efD次に、対応する深度情報がf D e f_D^eと比較されます。fDポイントごとの加算を実行します。このようにして、オブジェクト クエリはシーンレベルの深度情報をより適切に取得し、3D 幾何学的情報をよりよく理解できるようになります。

4.3 検出ヘッドと損失

二部マッチング

バイナリ マッチングを使用して 2 セットのメトリクスが設計され、1 セットはカテゴリ、2D 位置、2D サイズを含む 2D 情報です。2 番目のグループには、3D 位置、3D サイズ、方向が含まれます。理論的には、2 つのコストのセットの合計を照合に使用する必要があります。ただし、3D 情報は学習が難しく不安定であるため、マッチングに失敗する可能性があるため、マッチングには最初の情報のみが使用されます。

全体的な損失

2D 損失 + 3D 損失 + 深度マップ損失の式
は次のとおりです。
ここに画像の説明を挿入します

4.4 マルチビュー検出器のプラグアンドプレイ

主な結論は、3D 情報の補足として多視点ターゲット検出に追加でき、より良い結果が得られるということです。一つ一つ詳しく説明しません。エンジニアリングの導入中に、費やしたコンピューティング能力ほどのメリットは明らかにありません。(作者さん、叩かないでください)

5 実験

私たちは最高です。すべてのアブレーション実験は、現在の構造が最高であることを証明できます~マップ結果のみを掲載します。

ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/ZauberC/article/details/132604830