[論文ノート] PillarNeXt: LiDAR 点群における 3D オブジェクト検出のためのネットワーク設計の再考

元のリンク: https://arxiv.org/pdf/2305.04925v1.pdf

1 はじめに

  ポイントベースの表現、グリッドベースの表現、およびポイントとグリッドに基づくハイブリッド表現方法は、特定の近傍内の点の特徴を集約することに焦点を当てており、この記事ではこのような操作をローカル ポイント集約操作と呼びます。2D 検出の成熟度はトレーニング戦略とネットワーク構造に起因すると考えられますが、主流の 3D ターゲット検出では、ネットワーク構造の探索を無視して、点群処理に特化した操作が設計されています。
  この記事では、3D オブジェクト検出の 2 つの鍵、ローカル ポイント集約操作とネットワーク構造につ​​いて概説します。
  実験では、特定の計算予算の下で強化されたモデルを使用すると、シリンダーベースの方法がボクセルベースの方法を超えるか、同等のパフォーマンスを達成でき、複数式融合方法を大幅に超える可能性があることが示されています。これは、より強力なネットワークの下では、さまざまなローカル ポイント集約操作が同様の効果をもたらすことを示しています。さらに、この論文では、2D 検出の経験を 3D 物体検出 (たとえば、より大きな受容野) に導入し、単一スケール検出が以前のマルチスケール検出モデルのパフォーマンスを超える可能性があることを証明します。
  この記事で提案するモデルは柱表現に基づいており、PillarNeXt と呼ばれます。

3. ネットワーク構成の概要

  グリッドベースの 3D 検出モデルには、通常、点群を構造化特徴マップに変換するグリッド エンコーダー、特徴抽出用のバックボーン、マルチスケール特徴融合用のネック、およびタスク関連の検出ヘッドの 4 つの部分が含まれます。

3.1 トレリスエンコーダ

円柱表現ボクセル表現多視点融合表現(円柱表現+遠景・正面視点表現)  を考慮します。

3.2 体幹と首

  バックボーンネットワークはいずれもResNet-18構造を採用しており、シリンダー表現や多視点融合表現には2Dコンボリューション、ボクセル表現には3Dスパースコンボリューションを採用しています。ネック ネットワークは、2D 検出で BiFPN (マルチスケール特徴の重み付け融合) または ASPP (異なる拡張率の複数の畳み込みを使用して単一スケール特徴を処理) を使用します。

3.3 検出ヘッド

  CenterPoint の検出ヘッドを使用して、機能のアップサンプリング、カテゴリ グループ化の検出、IoU ブランチなどのいくつかの変更を加えます。

4. 実験

4.2 ネットワーク設計の研究

4.2.1 トレリスエンコーダの研究

  実験では、円柱表現が最も速く、BEV AP インデックスが最も高いが、3D AP はボクセル表現よりわずかに低いことが示されています。トレーニング サイクルの数を増やし、IoU 損失を導入し、複数の検出ヘッド セットに IoU スコアリング ブランチを追加することにより (カテゴリが異なると異なる検出ヘッドを使用する場合があります)、円柱表現のパフォーマンスはボクセル表現に達するか、それを超える可能性があります (すべてのモデルが上記のパフォーマンスを実行します)。強化されました)。これは、明示的な高さモデリングが失われると、円柱表現が収束するまでに長いトレーニングが必要になり、きめの細かいローカル ジオメトリ モデリングが不要であることが示されるためである可能性があります。

4.2.2 ネックネットワークの研究

  PointPillars のネック ネットワークを FPN または BiFPN に置き換えると、車両検出の精度が向上します。
  BEV での 3D ターゲット検出にはオブジェクト サイズの変化の問題がないため、マルチスケール検出は不要になる可能性があります。したがって、この論文では、いくつかの単一スケールのネック ネットワークを使用します。YOLOF の拡張ブロックは、受容野を拡大し、車両の検出精度を高めるために使用されます。また、ASPPをネックネットワークとして利用することで、車両の検出精度も向上します。すべてのソリューションはかなりの歩行者検出精度を備えているため、マルチスケール検出は不要であり、受容野の拡大がパフォーマンス向上の鍵となります。

4.2.3 解像度の研究

  検出ヘッドの解像度が固定されている場合、柱状化中に大きなグリッドを使用しても、大きなオブジェクト (車など) のパフォーマンスには影響しませんが、小さなオブジェクトの検出には影響します。検出ヘッドの解像度をダウンサンプリングすると、すべてのカテゴリの検出パフォーマンスに影響します。ただし、アップサンプリング レイヤーを使用すると、パフォーマンスが大幅に向上する可能性があります。これは、きめの細かい情報が BEV 特徴マップにエンコードされており、アップサンプリングによって詳細が復元できることを示しています。

4.3 概要

  この記事の PillarNeXt は以下の図に示されており、ネック ネットワークとして ASPP を使用し、検出ヘッドで特徴量のアップサンプリングを実行しています。
ここに画像の説明を挿入します

4.4 SotAとの比較

  この部分では、トレーニング中にコピー&ペーストのデータ拡張とリサンプリング CBGS がさらに使用されており、実験では、この方法が最高のパフォーマンスを発揮することが示されています。

付録

A. 実装の詳細

  すべての実験のトレーニングでは、ランダムな反転、ランダムな回転、ランダムなスケーリング、およびランダムな移動が使用されました。

おすすめ

転載: blog.csdn.net/weixin_45657478/article/details/130809840