【3D物体検出・自動運転】IA-BEV:構造事前分布と自己強化学習に基づくインスタンスアウェアな3D物体検出(AAAI 2024)

シリーズ記事の目次

論文: 構造事前分布によるインスタンス認識マルチカメラ 3D オブジェクト検出マイニングおよび自己ブースティング学習
アドレス: https://arxiv.org/pdf/2312.08004.pdf
出典: 復旦大学 Intel Shanghai Key Lab/Meituan



まとめ

  マルチカメラによる 3 次元ターゲット検出は、自動運転分野における重要な研究方向であり、一般的な方法は、多視点画像の特徴を統合鳥瞰図 (BEV) 空間に変換して認識することです我々は、奥行き推定プロセス中に画像平面上にインスタンスを認識した情報を導入する、インスタンスを認識した鳥瞰図検出器 (IA-BEV) を提案します。nuScenes データセットでは、このメソッドは 2 つのキーフレームを使用して最先端の結果を達成します。


I.はじめに

  近年、自動運転分野においてマルチカメラによる3D目標検出が広く注目を集めています。LIDAR と比較して、そのカメラは物体の意味情報をより適切に捕捉でき、コストが低いという利点があります。この分野の最新のトレンドは、後続の認識タスクのために、マルチビュー画像の特徴を統合された BEV 空間に変換することですこの表現により、BEV 空間での複数のセンサーとタイムスタンプからの信号の位置合わせが容易になり、検出、マップのセグメンテーション、動作計画などの下流タスクに共通の表現が提供されます。

  BEV ベースの知覚プロセスでは、奥行き推定は、画像ビューから BEV への透視投影における重要なリンクです初期の手法では、単眼画像から暗黙的または明示的に深度を推定していました。マルチビュー ステレオ マッチング テクノロジーにヒントを得た後続の方法では、連続したカメラ フレームを使用してステレオ マッチングのコスト ボリュームを構築します深度推定が改善されたため、これらの方法では高品質の BEV 特徴が得られ、検出パフォーマンスが大幅に向上します。

  大幅な進歩にもかかわらず、既存の方法はすべてのピクセルを同等に重要なものとして扱うため、前景オブジェクトに固有のプロパティを無視します。実際、前景オブジェクトはクラス内の一貫性とインスタンス間の変動性を示すことがあり、これを深度推定の改善に使用できると考えられます。一方で、同じ意味カテゴリのオブジェクトには同様の構造的事前分布があり、これは次の 2 つの点に反映されています。

1)画像内のオブジェクトのスケールには、その真の奥行きと一定の相関関係があります。この相関関係は、同じ意味カテゴリのオブジェクトでは通常一貫していますが、異なるカテゴリのオブジェクトでは異なります。たとえば、画像内の車のスケールは実際の奥行きに反比例しますが、同じ奥行きでも車と歩行者のスケールには大きな違いがあります。

2)同じ意味カテゴリ内のオブジェクトは、一貫した内部幾何学的構造を持っています図 1(b) に示すように、同じカテゴリのオブジェクト (車) は、画像平面から別々に見た場合、同様の相対的な奥行き分布を持ちます。

   一方、インスタンス オブジェクトが異なると、同じカテゴリであっても、解像度やオクルージョン状態が異なるため、見た目は大きく異なります したがって、インスタンスオブジェクトが異なれば、深度推定の難易度も異なります。図 1 に示すように、左側の自動車の画像には、より多くのテクスチャと形状の詳細が含まれているため、奥行き推定の不確実性が減少しています。一部の方法では、3D オブジェクト検出のために 2D オブジェクトの事前情報を調査しますが、主に透視投影後に検出された 2D オブジェクトを利用するため、深さ推定を改善して BEV 特徴の構築を強化する可能性は無視されています。

ここに画像の説明を挿入します

2. 解決策の提案

上記の観察に基づいて、 2D インスタンス知覚強化を使用した BEV 検出器に基づく奥行き推定アルゴリズム、すなわち IA-BEV  が提案されます。図 1(d) に示すように、私たちの IA-BEV はまずシーンを個々のオブジェクトに分解し、次にこれらのオブジェクトの固有の特性を利用して、2 つの新しいモジュールを通じて単眼およびステレオの奥行き推定を効果的に支援します。

ここに画像の説明を挿入します
図 2 | 提案手法の詳細設計。マルチビュー カメラから収集された画像が与えられると、まず既製の 2D シーン パーサーを使用して前景オブジェクトを解析します。次に、これらのオブジェクトとその画像特徴は、私たちが提案する SPM と SBL に並行して入力され、カテゴリとインスタンスの両方の観点からオブジェクトのプロパティを調査することで効率的な深度推定を実行します。最後に、SPM と SBL の出力を組み合わせて最終的な画像深度を取得し、従来のビュー変換と BEV ベースの検出に使用します。ここでのステ​​レオマッチングにはマルチフレームの時間情報が必要であるため、T フレームと T-1 フレームは別々に SPM に入力され、同時に SBL に入力されます。

   最初のモジュールは、カテゴリベースの構造事前マイニング (SPM) です。これは、同じまたは類似の意味論的カテゴリに属する​​オブジェクトをグループ化し、それぞれの軽量ディープ デコーダによって処理され、構造事前マイニングをより適切に活用します。ただし、これらの並列デコーダーが入力をグループ化するだけでカテゴリ固有のパターンを積極的に学習することを期待することは非常に困難であり、その結果、パフォーマンスが低下します。この問題に対処するために、追加の入力としてオブジェクト スケール属性を明示的にエンコードし、2 つのインスタンス ベースの損失関数を適用して、粗いインスタンスの絶対深度と詳細な内部オブジェクトの相対深さの予測を監視します

   2 番目のモジュールは自己強化学習 (SBL) です。これはカテゴリに依存しない方法で動作し、より困難なオブジェクトを繰り返し各反復では、ステレオ マッチングの不確実性に基づいて、オブジェクトが最初に 2 つのグループに分割されます。次に、不確実性がより高いグループ (不正確な推定値を示す) は、後続の反復でさらに強化されます。処理する必要がある前景領域は後の反復で徐々にまばらになるため、不確実性の範囲内で選択した困難なサンプルに対してより高密度の深度仮説を設定して、それらに対してより包括的なステレオ マッチングを実行できます。最後に、SPM と SBL を組み合わせた奥行き推定に基づいて、従来のビュー変換プロセスが実行され、最終検出のための BEV 特徴が構築されます。

  


3. 主な手法

  IA-BEV には 4 つの重要なコンポーネントが含まれています:画像特徴の抽出と前景オブジェクトの解析を担当する特徴エンコーダー、同じカテゴリのオブジェクトの構造的一貫性を利用して単眼奥行き推定を強化する構造事前マイニング法 (SPM)自己拡張学習戦略 (SBL) は、ステレオ深度推定でぼやけたオブジェクトを強化します。BEV特徴エンコーダは、BEV 空間で特徴をレンダリングし、オブジェクトを検出するために使用されます。

3.1 特徴エンコーダ

  マルチビュー カメラで収集された画像の場合、バックボーン ネットワーク (ResNet-50 や ConvNeXt など) を使用して画像の特徴が抽出されます同時に、成熟したインスタンス セグメンターを使用して前景オブジェクトを解析します。ここでは、オブジェクト領域全体の深度を高密度に予測することが目標であるため、ベクトルに集約するのではなく、オブジェクトのすべてのピクセルの特徴を保持します。次に、SPM と SBL を使用して、オブジェクト固有の特性の潜在的な深度推定を活用します

3.2 事前採掘の構造

01. カテゴリベースのディープデコーダ

  単眼画像から奥行きを推定することは、さまざまなセマンティック オブジェクト スケールと奥行き値の間の関係を理解する必要があるため、困難です。既存の BEV ベースの手法は、一般的な画像バックボーン ネットワークを特徴エンコーダとして採用し、モデルに強力なセマンティック キャプチャ機能を与えますが、単一の深度デコーダに依存して複数のセマンティック カテゴリのスケールから深度へのマッピング パターンを同時に学習し、最適化を強化します。必要事項のご負担をお願いいたします

異なるセマンティック カテゴリの学習プロセスを簡素化するために、図 2 に示すように、複数の並列軽量ディープ デコーダ  が設計されており、各デコーダが同じカテゴリに属する​​オブジェクトの処理を担当します。具体的には、最初にすべての前景オブジェクトをいくつかの重複しない意味グループに分割します。次に、セマンティック グループから抽出されたオブジェクトの特徴を取得し、オブジェクトの特徴とボックス パラメーター (つまり、正規化されたボックスの高さと幅) を同時に軽量ディープ デコーダーに入力します各深度デコーダでは、ボックス パラメータが線形マッピングを通じてエンコードされ、SE モジュールを使用してオブジェクトの特徴と融合されます。最後に、畳み込み層によって出力が予測され、現在のオブジェクト領域の深さが予測されます。最後に、すべてのインスタンスの予測深度を結合することによって、単眼の推定深度が取得されます。

02.事例に基づいたスーパービジョン

  典型的な BEV ベースの知覚パイプラインでは、奥行き予測はピクセルレベルのクロスエントロピー損失によって管理されており、これでは粒度の細かいインスタンスレベルの手がかりを捉えることができないため、前述のカテゴリ固有の意味論的構造事前学習の難易度が高くなります。深度デコーダしたがって、粗いインスタンスの絶対深さ細かいインスタンス内相対深さの学習を促進する 2 つの新しい損失関数を設計しますまず、オブジェクトの離散的な深度予測を連続的な深度値に変換します。次に、LIDAR ポイントを画像平面に投影して GroundTruth 深度を取得し、前景オブジェクトと交差する部分を保持して監視信号を構築します

  この時点で、予測値と GroundTruth 深度値の両方が得られます。インスタンスレベルの深度予測を明示的に監視するために、オブジェクトごとに、絶対深度値Dgtを回帰ターゲットとして抽出しますセンサーエラーにより、GroundTruth 深度にいくつかの外れ値があり、教師ありモデルに大きな課題をもたらしていることは注目に値します。したがって、最初にすべての深度値を事前定義された深度ビンに分散し、次に絶対深度損失 d gtとして最大投票数を持つ深度ビン内の値のみを平均しますさらに、相対的な深さの損失を計算して、特定のデコーダーがきめ細かいオブジェクト ジオメトリ パターンを学習できるようにします

ここに画像の説明を挿入します

3.3 自己ブースト学習

   時間ベースのステレオ マッチング技術は、奥行き推定の時間次元における幾何学的一貫性に依存します具体的には、T フレームのピクセルごとに、最初に深度チャネルに沿っていくつかの深度仮説を提案します。これらの仮説は、T フレームと (T-1) フレーム間のホモグラフィー変換を介して(T-1) フレームに投影され、コスト ボリュームを構築し、それらの間の最適な一致を学習します。上記のプロセスにおける主な障害は、高解像度の画像特徴と緻密な仮説における多数のピクセルの 3 次元コスト ボリュームを構築するための膨大なメモリ オーバーヘッドです。ただし、このシナリオでは、画像領域を同等に扱うべきではありません。

  まず、前景オブジェクトは背景領域よりも重要です。第 2 に、視覚的な鮮明度が低いオブジェクトの奥行き推定はより困難であるため、より注意を払う必要があります。したがって、より困難なオブジェクト領域に繰り返し焦点を当てる自己強化戦略を設計します。これにより、コスト ボリューム構築の粒度をさまざまな領域に応じて適応的に調整できるようになり、それによってコストと効果の間のより良いトレードオフが達成されます。

01.低コストボリューム構築

  効率を向上させるために、私たちは主に T フレーム内の前景オブジェクトのステレオ マッチング動作を調査することに重点を置いています。これは、従来の高密度コスト ボリューム構築パラダイムを打ち破るものです。そこで、このような手順を以下に紹介するスパース形式に書き換えます。T フレームと (T-1) フレーム間のホモグラフィー変換を使用してそれを変換し、対応する投影位置を取得します。異なる深度仮説の各ピクセルについて、(T-1) フレームでの対応するピクセルを確立します。それらの機能を組み合わせて、まばらなコスト ボリュームを生成します。続いて、3 次元スパース畳み込みを使用してマッチング スコアが計算されます。

座標 (u, u) と対応する深度仮説 d hを例にとると、T フレームと T-1 フレームの間のホモグラフィー ワーピングを使用して、対応する投影を取得します。
ここに画像の説明を挿入します
ここで、K はカメラの固有パラメータ、M はT→ T-1 は、T から T-1 フレームへの変換行列です。上記のプロセスに従って、異なる深さの仮定を持つターゲット ピクセルごとに、(T-1) フレーム ピクセルとの対応を確立し、それを特徴と組み合わせてスパース生成コスト ボリュームを生成しますVE RNpxNaxCf
。ここで、N pと N dピクセル数と深度仮説の数、C fは特徴チャネルの次元です。続いて、3D スパース畳み込みを使用してマッチング スコアが計算されます。

02. 反復ステレオマッチング

  最初のラウンドでは、視覚的に詳細が豊富なオブジェクトを効果的に識別するために、前景オブジェクトのすべてのピクセルに対してスパース深度仮説を均一にサンプリングします。次に、スパースなコスト ボリュームを構築し、一致するスコアを計算します。ピクセル深度チャネルに沿って平均と標準偏差を計算します。平均と標準偏差が小さい場合、深さの仮説は正常に検証され、最適な一致が見つかります。逆に、平均値と標準偏差が大きい場合は、複数の深い仮説が優先されるため、さらに強化する必要があることを意味します。したがって、事前定義されたしきい値未満のマッチング スコア標準偏差を持つピクセルを満足のいく結果とみなし、次の反復でフィルターします。残りのピクセルについては、その平均と標準偏差により、より正確な検索範囲が得られ、次の反復でより効果的に深度仮説を提案するのに役立ちます。平均と標準偏差に基づいて、次の反復の深度サンプリング範囲を更新します。

  さらに、残りのピクセルに対して複数の深度仮説を均一にサンプリングします。深度仮説は次の反復で使用され、疎なコスト ボリュームが構築され、同様に平均と標準偏差が計算されます。深度仮説の数は反復ごとに異なるため、補間演算を使用して、すべての事前定義された深度ビンを満たして位置合わせを行います。図 4 に示すように、提案された自己強化学習戦略は、初期の反復で主に鮮明なオブジェクト領域を区別できるため、ぼやけたオブジェクトを強化するためのリソースが節約されます。

ここに画像の説明を挿入します

SBL 内のフィルタリングされたパッチと残りのパッチの視覚化。灰色のパッチは背景領域を表し、青色とオレンジ色のパッチはそれぞれフィルタリングされたパッチと残りのパッチを表します。赤と青の破線の円を使用して、それぞれぼやけたオブジェクトと鮮明なオブジェクトを強調表示します。

3.4 BEV機能プロセッサ

  SPM と SBL からの単眼とステレオの深度予測を合計することにより、マルチカメラ画像から BEV 特徴をレンダリングするための最終的な深度予測を取得できます。その後、BEV の特徴は最終 3D 検査のために従来の検査ヘッドに入力されます。

4. 実験結果

このメソッドでは、nuScenes データセットで多数の実験を実施し、最先端のメソッド (検証セットとテスト セット) と比較しました。
ここに画像の説明を挿入します
ここに画像の説明を挿入します

ベースライン法と IA-BEV の間の定性的結果の比較:
ここに画像の説明を挿入します

要約する

提示:这里对文章进行总结:

  

  








d \sqrt{d}d 1 0.24 \frac {1}{0.24}0.241 x ˉ \bar{x}バツˉ x ^ \hat{x}バツ^ x ~ \チルダ{x}バツ~ ϵ \εϵ

おすすめ

転載: blog.csdn.net/qq_45752541/article/details/135225866