点群 3D オブジェクト検出 - RangeDet (ICCV 2021)

免責事項: この翻訳は個人の学習記録にすぎません

記事の情報

まとめ

  この論文では、アンカーのない単一ステージのライダーベースの 3D オブジェクト検出器である RangeDet を提案します。以前の研究との最も顕著な違いは、私たちの方法が完全に距離ビュー表現に基づいていることです。一般的に使用されるボクセル化または鳥瞰図 (BEV) 表現と比較すると、距離ビュー表現はよりコンパクトで、量子化エラーがありません。これをセマンティック セグメンテーションに使用する作業はありますが、オブジェクト検出のパフォーマンスは、ボクセル化または BEV の対応物に大きく遅れをとっています。最初に、既存のレンジ ビュー ベースの方法を分析し、以前の作業で見落とされていた 2 つの問題を発見しました: 1) 近くのオブジェクトと遠くのオブジェクトの間のスケールの変動; 2) 特徴抽出に使用される 2D レンジ画像座標は、3D デカルト座標間の不一致とは異なります。出力で使用されます。次に、これらの問題を解決するために、RangeDet の 3 つのコンポーネントを意図的に設計します。大規模な Waymo Open Dataset (WOD) で RangeDet をテストしました。当社の最高のモデルは、車両/歩行者/サイクリストで 72.9/75.9/65.8 3D AP を達成しています。これらの結果は、他の距離表示ベースの方法よりも大幅に優れており、一般に最先端のマルチビュー ベースの方法に匹敵します。コードは https://github.com/TuSimple/RangeDet で公開されます。

1 はじめに

  Lidar ベースの 3D オブジェクト検出は、自動運転シナリオに不可欠なテクノロジです。いくつかの類似点にもかかわらず、3D 疎点群でのオブジェクト検出は、2D でのオブジェクト検出とは根本的に異なります。重要なのは、後続の処理のためにまばらで順序付けられていない点群を効率的に表現することです。いくつかの一般的な表現には、鳥瞰図 (BEV) [9, 38, 37]、ポイント ビュー (PV) [25]、レンジ ビュー (RV) [11, 18]、およびそれらの融合 [24, 44, 33] が含まれます。図 1 を参照してください。その中でもBEVが一番人気です。ただし、空間をボクセルまたはシリンダーに分割するときに量子化エラーが発生します。これは、数ポイントしか離れていない可能性のある遠くのオブジェクトには適していません。この欠点を克服するために、通常はポイント ビュー表記法が採用されます。ポイント ビュー オペレーター [22、23、34、31、35、30、17] は、順序付けされていない点群から効果的な特徴を抽出できますが、大規模な点群データに効果的にスケーリングすることは困難です。

ここに画像の説明を挿入

図 1. LiDAR ベースの 3D オブジェクト検出のさまざまなビュー。

  距離ビューは、セマンティック セグメンテーション タスク [19、36、42、43] で広く採用されていますが、オブジェクト検出のみに使用されることはめったにありません。ただし、この論文では、単一の視点から生成されるため、レンジ ビュー自体が LiDAR ポイント クラウドを表す最もコンパクトで有益な方法であると主張します。基本的に、完全な 3D ポイント クラウドではなく、2.5D [7] シーンを形成します。したがって、距離ビューで点群を整理することで、情報が失われることはありません。コンパクトであるため、距離画像座標に基づく高速な近傍クエリも可能になりますが、ポイント ビュー法では通常、近傍を取得するために時間のかかるボール クエリ アルゴリズム [23] が必要です。さらに、距離表示ベースの検出器の有効な検出距離は、センサーの可用性と同じくらいにすることができますが、BEV ベースの 3D 検出器の検出距離にはしきい値を設定する必要があります。その利点にもかかわらず、興味深い質問は、レンジ ビュー ベースの LIDAR 検出結果が他の表現ほど良くない理由です。

  実際、いくつかの研究では、VeloFCN [11] から LaserNet [18]、最近提案された RCD [1] に至るまで、遠景を利用しようと試みています。ただし、純粋な距離ビュー ベースの方法と BEV ベースの方法の間には、まだ大きなギャップがあります。たとえば、Waymo Open Dataset (WOD) [29] では、最先端の方法よりも依然として大幅に低い値です。

  距離ビュー表現の力を解き放つために、距離ビュー ベースの検出器の現在の設計を調べ、見過ごされているいくつかの事実を発見します。これらの点は簡単に思えるかもしれませんが、悪魔は細部にあることがわかります。これらの課題を適切に処理することが、高性能の距離表示ベースの検出の鍵となります。

  まず、BEV でまばらな点を持つオブジェクトを検出するという課題は、距離画像ベースの 3D 検出器では真剣に考慮されたことのない距離画像のスケール変動の課題に変換されます。

  第 2 に、2D 距離ビューは当然コンパクトであるため、大きな計算負荷をかけずに高解像度の出力を採用できます。ただし、現在の距離画像ベースの設計では、これらの特性を利用して検出器のパフォーマンスを向上させる方法が無視されています。

  3 番目に、そして最も重要なこととして、2D 画像とは異なり、距離画像の畳み込みは 2D ピクセル座標で実行されますが、出力は 3D 空間にあります。これは、現在の距離ビューベースの検出器の設計が不十分であることを示しています。標準的な畳み込みのカーネルの重みと集約戦略の両方がこの矛盾を無視しているため、ネットワークの最初から幾何学的情報が大幅に失われます。

  この論文では、上記の課題に対処することを目的とした、単一ステージのアンカーフリー検出器である、純粋なレンジビューベースのフレームワークである RangeDet を提案します。既存のレンジ ビュー ベースの 3D 検出器の欠点を分析し、対処する必要がある上記の 3 つの重要な課題を指摘します。最初の課題については、それを軽減するためのシンプルだが効果的な距離条件付きピラミッドを提案します。2 番目の課題では、加重非最大抑制を使用してこの問題を解決します。3 つ目は、2D レンジ ビュー表現から 3D 幾何学的情報を取得するためのメタカーネルを提案することです。これらの手法に加えて、一般的なデータ拡張手法を 3D 空間から距離ビューに移す方法を探ります。すべての手法を組み合わせることで、当社の最高のモデルは、複数のビューにわたって最先端の作品に匹敵する結果を達成します。車両検出では、以前の純粋な範囲ビュー ベースの検出器よりも 20 3D AP 優れています。興味深いことに、一般に信じられていることとは反対に、RangeDet は BEV 表現よりも遠くのターゲットや小さいターゲットに対してより有益です。

2. 関連作品

BEV ベースの 3D 検出器LiDAR ベースの 3D 検出へのいくつかのアプローチは、3D 空間全体を離散化します。3DFCN [10] と PIXOR [38] は手作りの特徴をボクセルにエンコードしますが、VoxelNet [45] はボクセル特徴のエンドツーエンド学習を使用する最初のものです。SECOND [37] は、スパース畳み込みで VoxelNet を高速化します。PointPillars [9] は機能の削減に非常に積極的で、PointNet を適用して高さの次元を最初に縮小し、次に疑似画像として扱います。

ポイント ビューに基づく 3D 検出器F-PointNet [21] は、最初に 2D 関心領域 (ROI) に対応するフラスタムを生成し、次に PointNet [22] を使用して前景ポイントをセグメント化し、3D バウンディング ボックスを回帰させます。PointRCNN [25] は、3D 検出のための点群を使用した提案の生成と改良で PointNet++ [23] を使用することにより、2D 画像の代わりに点群全体から直接 3D 提案を生成します。IPOD [39] と STD [40] はどちらも、前景の点群をシードとして使用して提案を生成し、第 2 段階でそれらを改良する 2 段階の方法です。最近、LiDAR RCNN [13] は、提案サイズのあいまいさに対処する一般的な提案改良構造を提案しています。

距離ビューに基づく 3D 検出器VeloFCN [11] は、点群を 2D に投影し、2D 畳み込みを適用して、各前景ポイントの 3D ボックスを密に予測する距離画像検出の分野における独創的な研究です。LaserNet [18] は、完全な畳み込みネットワークを使用して各ポイントのマルチモーダル分布を予測し、最終的な予測を生成します。最近では、RCD [1] は、スケール変更の動的スケーリングと、疑似 LiDAR [32] で指摘されている「境界のあいまいさ」の問題に対するソフト レンジ ゲーティングを学習することにより、距離ビュー ベースの検出における課題に対処しています。

マルチビュー ベースの 3D 検出器MV3D [2] は、3D オブジェクト検出のために正面図、BEV、およびカメラ ビューの機能を融合した最初の作品です。PV-RCNN [24] は、ポイントとボクセルの情報を共同でエンコードして、高品質の 3D プロポーザルを生成します。MVF [44] は、小さなオブジェクトの検出を改善するために、さまざまな視点からの豊富なコンテキスト情報を各ポイントに提供します。

二次元検出器スケールの変動は、2D オブジェクト検出における長年の問題です。SNIP [27] と SNIPER [28] は、画像ピラミッドの考え方に基づいて、提案を正規化されたサイズに再スケーリングします。FPN [14] とその変種 [16、20] は特徴ピラミッドを構築します。これは、最新の検出器の不可欠なコンポーネントになっています。TridentNet [12] は重み共有ブランチを構築しますが、別の拡張機能を使用してスケール対応機能マップを構築します。

3. 遠景表現の見直し

  このセクションでは、LIDAR データのレンジ ビュー表現について簡単に説明します。

ここに画像の説明を挿入

図 2. 距離画像の図。

  1 回のスキャン サイクルで m 個のビームと n 回の測定を行う LiDAR の場合、1 回のスキャンで返される値は、距離画像と呼ばれる m × n の行列を形成します (図 1)。距離画像の各列は方位角を共有し、距離画像の各行は傾斜角を共有します。これらは、LIDAR 原点に対するリターン ポイントの相対的な垂直角度と水平角度を表します。距離画像のピクセル値には、対応するポイントまでの距離 (深さ)、戻ってくるレーザー パルスの振幅 (強度と呼ばれる)、およびその他の補助情報が含まれます。距離画像内のピクセルには、距離 r、方位角 θ、傾斜 φ の少なくとも 3 つの幾何学的値が含まれます。これらの 3 つの値は、球座標系を定義します。図 2 は、距離画像の形成とこれらの幾何学的値を示しています。デカルト座標で一般的に使用されるポイント クラウド データは、実際には球座標系からデコードされます。
ここに画像の説明を挿入
ここで、x、y、z は点のデカルト座標を表します。距離ビューは、1 つの視点からのスキャンに対してのみ有効であることに注意してください。範囲画像内で 1 ピクセルだけ重なる可能性があるため、一般に点群には適していません。

  他の LIDAR データセットとは異なり、WOD はネイティブ レンジ イメージを直接提供します。距離と強さの値に加えて、WOD は伸びと呼ばれる別の種類の情報を提供します [29]。伸び率は、レーザー パルスの幅がどれだけ伸びているかを測定し、偽のターゲットを識別するのに役立ちます。

4. 方法

  このセクションでは、最初に RangeDet の 3 つのコンポーネントを詳細に紹介します。次に、完全なアーキテクチャが提供されます。

4.1 距離条件ピラミッド

  2D 検出では、フィーチャ ピラミッド ネットワーク (FPN) [14] などのフィーチャ ピラミッド ベースの方法が、通常、スケール バリエーションの問題に対処するために採用されます。図4に示すように、まずFPNで機能ピラミッドを構築します。特徴ピラミッドの構築は 2D オブジェクト検出の FPN に似ていますが、違いは、トレーニングのために各オブジェクトが異なるレイヤーに割り当てられる方法にあります。元の FPN では、2D 画像内の領域に基づいてグラウンド トゥルース バウンディング ボックスが割り当てられます。ただし、この割り当て方法を単純に採用すると、2D ターゲット イメージと 3D デカルト空間の違いが無視されます。近くの乗用車は、遠くにあるトラックと同様の領域を持っているかもしれませんが、それらのスキャン パターンはまったく異なります。したがって、FPN で純粋に領域を使用するのではなく、同じレイヤーで処理される距離が類似したオブジェクトを割り当てます。したがって、私たちの構造を Distance Conditional Pyramid (RCP) と名付けました。

4.2 メタカーネル畳み込み

  RGB 画像とは対照的に、深さ情報はデカルト座標系を範囲画像に与えますが、標準の畳み込みは通常のピクセル座標の 2D 画像用に設計されています。畳み込みカーネル内の各ピクセルでは、重みは相対的なピクセル座標のみに依存するため、デカルト座標からの幾何学的情報を十分に利用することはできません。この論文では、相対デカルト座標またはより多くのメタデータから動的重みを学習する新しい演算子を設計し、畳み込みを距離画像により適したものにします。

  理解を深めるために、まず標準の畳み込みを 4 つの部分に分解します。サンプリング、重みの取得、乗算、および集計です。

1) サンプリング標準的な畳み込みのサンプリング位置は、相対ピクセル座標が k h ×k wの規則的なグリッド G です。たとえば、拡張 1 の一般的な 3×
ここに画像の説明を挿入
3サンプリンググリッドとおりです固有ベクトルがサンプリングされます。

2) 重量取得各サンプリング位置 (p 0 +p n ) の重み行列 W(p n ) ∈ R Cout×Cinは、 p nに依存し、特定の特徴マップに対して固定されています。これは、畳み込みの「重み共有」メカニズムとしても知られています。

3) 掛け算標準畳み込みの行列乗算を 2 つのステップに分解します。最初のステップは、ピクセル単位の行列乗算です。各サンプリング ポイント (p 0 +p n ) について、その出力は
ここに画像の説明を挿入
4) 集計として定義されます。乗算の後、2 番目のステップはG のすべての o p0 (p n ) を合計することです。これは、チャネルごとの合計と呼ばれます。

  要約すると、標準的な畳み込みは次のように表現できます。
ここに画像の説明を挿入
  範囲ビュー畳み込みでは、畳み込み操作がローカル 3D 構造を認識していることを期待します。したがって、メタ学習アプローチを介して重みをローカル 3D 構造に適応させます。

  重みの取得では、まず各サンプリング位置のメタ情報を収集し、この関係ベクトルを h(p 0 , p n ) と表します。h(p 0 , p n ) には通常、相対デカルト座標、距離値などが含まれます。次に、h(p 0 , p n )に基づいて畳み込み重み W p0 (p n ) を生成します。具体的には、2 つの全結合層を持つ多層パーセプトロン (MLP) を適用します。
ここに画像の説明を挿入
  乗算 では、行列乗算の代わりに、次のように単純に要素単位の積を使用して op0(pn) を取得します:
ここに画像の説明を挿入
行列乗算は使用しません。アルゴリズムは大きな点群で動作し、形状 H×W× Cout ×kh × kw × Cinの重みテンソルを保存するには、あまりにも多くの GPU メモリが必要です。深さ方向の畳み込みに着想を得た要素単位の積は、重み tensor からC out次元を排除し、メモリ消費を大幅に削減します。ただし、要素ごとの製品にはクロスチャネル融合はありません。それは集計ステップに任せます。

  集約では、チャネルごとの合計ではなく、すべての o p0 (p n )、∀p n ∈ G を連結し、それを全結合層に渡して、異なるチャネルと異なるサンプリング位置からの情報を集約します。

  要約すると、メタカーネルは
ここに画像の説明を挿入
次のように定式化できます。図 3 は、メタカーネルを明確に示しています。

ここに画像の説明を挿入

図 3. メタカーネルの図 (カラー表示が最適)。3x3 のサンプリング グリッドを例にとると、中心にある 9 つの近傍の相対的なデカルト座標を取得できます。共有 MLP は、これらの相対座標を入力として受け取り、9 つの重みベクトル w 1、w 2、...、w 9を生成します。次に、9 つの入力特徴ベクトル f 1、f 2、…、f 9をサンプリングします。o iは w iと f iの要素ごとの積です9 つの近傍からのo i を1×1 畳み込みに連結することにより、異なるチャネルと異なるサンプリング位置からの情報を集約し、出力特徴ベクトルを取得します。

ドットベースの演算子 と比較してくださいポイントベースの畳み込みのような演算子にいくらか似ていますが、メタカーネルにはそれらとの 3 つの注目すべき違いがあります。(1) スペースを定義します。メタ カーネルは 2D 距離ビューで定義され、他のカーネルは 3D 空間で定義されます。したがって、メタコアには規則的な n×n 近傍があり、ポイントベースの演算子には不規則な近傍があります。(2) 集約。3D 空間のポイントは順序付けされていないため、ポイントベースの演算子の集約ステップは通常、順列不変です。最大プーリングと合計は広く採用されています。RV の n×n ネイバーは順列変数です。これは、Meta-Core が集約ステップとしてカスケードおよび完全に接続されたレイヤーを採用することの自然な利点です。(3) 効率。ポイントベースの演算子には、時間のかかるキーポイント サンプリングと近隣クエリが含まれます。たとえば、単一の 2080Ti GPU では、最遠点サンプリング (FPS) [23] を使用して 160K ポイントを 16K にダウンサンプリングするのに 6.5 秒かかり、これは RandLA Net [8] でも分析されています。PointConv [35]、KPConv [30]、および Continuous Conv [31] のネイティブ バージョンなどの一部のポイント ベースの演算子は、各ポイントの重み行列または特徴行列を生成するため、大規模なポイントを処理するときに深刻な問題に直面します。雲.メモリの問題. これらの欠点により、自動運転シナリオでポイントベースのオペレーターを大規模なポイント クラウド (105 ポイントを超える) に適用することができなくなります。

4.3 加重非最大抑制

  前述のように、距離画像ベースの検出器のパフォーマンスを向上させるために距離ビュー表現のコンパクトさを活用する方法は重要なトピックです。一般的なオブジェクト検出器では、提案は必然的に提案分布の平均からのランダムな偏差を持ちます。偏差の少ない提案を得るには、最も直接的な方法は、信頼度が最も高い提案を選択することです。バイアスを除去するためのより優れたより強力な方法は、利用可能なすべての提案の大部分を使用することです。既製の手法は、まさに私たちが必要としているものに適合します - 加重 NMS [5]。私たちの方法には利点があります。コンパクトさの性質により、RangeDetは膨大な計算コストなしでフル解像度の機能マップで提案を生成できますが、これはほとんどのBEVベースまたはポイントビューベースの方法では実行できません. より多くの提案があれば、バイアスはより良く排除されます。

  最初に、定義済みのしきい値 0.5 を下回るスコアを持つ提案を除外し、標準 NMS で予測されたスコアによって提案をランク付けします。現在のトップ ランクの提案 b 0について、IoU が 0.5 より大きい b 0の提案を見つけます。b0の出力バウンディング ボックスは、これらの提案の加重平均であり次のように記述できます。
ここに画像の説明を挿入
ここで、b kと s k は、他の提案とそれに対応するスコアを示します。t は IoU しきい値で、0.5 です。I( ) は指標関数です。

4.4 距離ビューでのデータ拡張

  ランダム グローバル回転、ランダム グローバル フリップ、およびコピー アンド ペーストは、LIDAR ベースの 3D オブジェクト検出器の 3 つの典型的なデータ拡張です。3D 空間ではシンプルですが、RV 構造を維持しながら RV に転送することは非常に重要です。

  点群の回転は、方位角方向に沿った距離画像の平行移動と見なすことができます。3D 空間での反転は、1 つまたは 2 つの垂直軸に対する距離画像の反転に対応します (補足資料で明確な図を提供します)。一番左の列から一番右の列まで、方位角は (-π, π) にまたがります。したがって、2D RGB 画像の拡張とは異なり、各ポイントの新しい座標を計算して、それらを方位角に合わせます。コピーと貼り付け [37] の場合、ターゲットは元の垂直ピクセル座標を使用して新しい距離画像に貼り付けられます。この処理により、RV (不均一な垂直角度解像度) 構造を維持し、ターゲットの地面からの大きな偏差を回避することしかできません。また、遠くの車が近くの壁の前にくっついてはいけないので、それを避けるために「距離テスト」を行います。

4.5 アーキテクチャ

全体的なパイプラインRangeDet のアーキテクチャを図 4 に示します。セクション 3 で説明したように、8 つの入力距離画像チャネルには、距離、強度、伸び、x、y、z、方位角、および傾斜が含まれます。メタカーネルは、2 番目の基本ブロックに配置されます [6]。機能マップはストライド 16 にダウンサンプリングされ、段階的に最大解像度にアップサンプリングされます。次に、ボックスの中心からの距離に応じて、各グラウンド トゥルース バウンディング ボックスを RCP のストライド 1、2、4 のレイヤーに割り当てます。対応するポイントがグラウンド トゥルース 3D バウンディング ボックス内にあるすべての場所は正のサンプルと見なされ、それ以外の場合は負のサンプルと見なされます。最後に、重み付けされた NMS を使用して、提案の重複を排除し、高品質の結果を生成します。

RCP とメタカーネルWOD では、ポイントの距離は 0m から 80m まで変化します。グラウンド トゥルース バウンディング ボックス内のポイントの分布に従って、[0, 80] を [0, 15)、[15, 30)、[30, 80] の 3 つの間隔に分割します。64 個のフィルターを備えた 2 層 MLP を使用して、相対的なデカルト座標から重みを生成します。アクティベーションには ReLU を使用します。

IoU 予測ヘッド. 分類ブランチでは、非常に最近の研究であるズーム損失 [41] を採用して、予測されたバウンディング ボックスとグラウンド トゥルース バウンディング ボックスの間の IoU を予測します。分類損失は次のように定義されます。
ここに画像の説明を挿入
ここで、M は有効なポイントの数、i はポイント インデックスです。VFL iはポイントごとのズーム損失です。
ここに画像の説明を挿入
ここで、p は予測スコア、q は予測されたバウンディング ボックスとグラウンド トゥルース バウンディング ボックスの間の IoU です。α と γ は焦点損失において同様の役割を果たします [15]。

頭に戻る回帰分岐には、分類分岐と同じ 4 つの 3×3 Conv も含まれます。まず、ポイント i を含むグラウンド トゥルース バウンディング ボックスを定式化します (ここで、ポイントは実際にはフィーチャ マップ内の位置であり、デカルト座標に対応します。理解を深めるために、ポイントと呼びます) ( xig , yig , zig ) , lig , かつら , hig , θ ig ) (x^g_i, y^g_i, z^g_i, l^g_i, w^g_i, h^g_i, θ^g_i)( ×gygzglgwg時間gg)は、境界ボックスの中心、寸法、方向の座標をそれぞれ示します。点 i のデカルト座標は( xi , yi , zi ) (x_i, y_i, z_i)( ×yz点 i と点 i を含むバウンディング ボックスの中心との間のオフセットを∆ri = rig − ri ∆r_i=r^g_i−r_iΔ r=rgr, r ∈ {x, y, z}. 点 i については、その方位角方向をローカル x 軸と見なします。これは、LaserNet [18] と同じです。この変換式を次のように定式化します (図 5 は明確な説明を提供します)。
ここに画像の説明を挿入
ここで、αi は点 i の方位角を表し、[Ωxi,Ωyi,Ωzi][Ωx_i,Ωy_i,Ωz_i][ Ω ×Ωy _Ωz _]は、回帰する変換された座標オフセットです。このような変換されたオブジェクトは、距離画像内のオブジェクトの外観が一定距離内の方位角によって変化しないため、距離画像ベースの検出に適しています。したがって、回帰ターゲットの方向を変更しないでおくのが合理的です。したがって、各点について、方位角方向をローカルの x 軸と見なします。

ここに画像の説明を挿入

図 4. RangeDet の全体的なアーキテクチャ。

ここに画像の説明を挿入

図 5. 2 つの回帰目標の図。左: すべての点について、自己中心座標系の x 軸がローカル x 軸と見なされます。右: 各点について、その方位角方向がローカル x 軸として取得されます。回帰損失を計算する前に、まずターゲットの最初のクラスを後者に変換します。

  点 i の真価電気影集 Q i{ Ω xig , Ω yig , Ω zig , log lig , log wig , log hig , cos φ ig , sin φ ig } \{Ωx^g_i, Ωy^g_i, Ωz ^g_i, log\ l^g_i, log\ w^g_i, log\ h^g_i, cos\ φ^g_i, sin\ φ^g_i\}{ Ω ×gΩy _gΩz _gろぐろ_ _ _ gローグw _ _ g_ _ _ gcos _ gs in φ g} . したがって、回帰損失は次のように定義されます
ここに画像の説明を挿入
ここで、piqiの予測された対応物N はグラウンド トゥルース境界ボックスの数で、niは点 i を含む境界ボックス内の点の数です。総損失は、L clsと Lregの合計です

5.実験

  ネイティブの距離画像を提供する唯一のデータセットである大規模な Waymo Open Dataset (WOD) で実験を行います。他の方法と比較するために、すべての実験で LEVEL_1 の平均精度を報告します。詳細な結果とパイプラインの構成については、補足資料を参照してください。実験は、トレーニング データセット全体を使用して、表 1、表 3、および表 9 で実行されます。他の実験のために、トレーニング データの 25% (約 40k フレーム) を均一にサンプリングします。

5.1 メタカーネル畳み込みの研究

  このセクションでは、メタカーネルを除去するための広範な実験を行います。これらの実験には、データ拡張は含まれていません。メタカーネルを 2D 3×3 畳み込みに置き換えることでベースラインを構築します。

異なる入力機能表 2 は、入力としてのさまざまなメタ情報に対する結果を示しています。当然のことながら、相対ピクセル座標 (E4) を使用しても、ベースラインと比較してわずかな改善しか得られず、カーネルの重みでデカルト情報を使用する必要性が正当化されます。

メタカーネルを配置するさまざまな場所メタカーネルをさまざまな段階に配置します。結果を表 4 に示します。これは、メタカーネルが下位レベルでより顕著であることを示しています。下位層は、メタカーネルが重要な役割を果たすジオメトリにより密接に関連しているため、この結果は妥当です。

ここに画像の説明を挿入

表 4. メタカーネルが異なるステージに異なるペースで配置された場合のビークル クラスのパフォーマンス。

小さなターゲットでのパフォーマンス範囲ビュー内の小さなオブジェクト (歩行者など) の場合、背景によって薄められるのを避けるために、境界情報は大きなオブジェクトよりも重要です。メタカーネルは、局所的な幾何学的特徴をキャプチャすることによって境界情報を強化するため、小さなオブジェクトの検出において特に強力です。表 5 に有意な効果を示します。

ここに画像の説明を挿入

表 5. 歩行者のメタカーネル アブレーション。

ポイントベースの演算子 と比較してくださいメタカーネルとポイントベースのオペレーターの主な違いについては、セクション 4.2 で説明します。公平な比較のために、メタカーネルのように、固定された 3×3 の近傍を持つ 2D 距離画像にいくつかの典型的なポイントベースの演算子を実装します。実装の詳細については、補足資料を参照してください。一部の演算子 (KPConv [30]、PointConv [35] など) は、メモリ コストが大きいため実装されていません。表 6 に示すように、これらの方法はすべて悪い結果しか得られません。次に詳細に説明する、順序付けられていない点群での集約に関する彼らの戦略に起因します。

ここに画像の説明を挿入

表 1. 車両検出における当社のコンポーネントのアブレーション。DA はデータ増強の略です。

ここに画像の説明を挿入

表 2. メタカーネルへのさまざまな入力のパフォーマンス比較。ベースライン実験では、メタカーネルは 3×3 2D 畳み込みに置き換えられます。(xi , y i , zi )、 (u i , vi )および ri は、それぞれデカルト座標、ピクセル座標および距離を表します

さまざまな集計方法他のポイントベースの演算子と同様に、連結ではなくチャネル方式で最大プーリングと合計を実行しようとします。表 7 に結果を示します。最大プーリングまたは合計を使用すると、さまざまな場所のフィーチャが同等に処理されるため、パフォーマンスが大幅に低下します。これらの結果は、遠景の相対的な順序を維持し、活用することの重要性を示しています。点群の順序付けられていない性質のため、他のビューを連結できないことに注意してください。

ここに画像の説明を挿入

表 6. ポイントベースの演算子との比較。接尾辞「RV」は、メソッドが 3D 空間の動的近傍ではなく、RV の固定 3×3 近傍に基づいていることを示します。この表の ContinuousConv は効率的なバージョンです。

ここに画像の説明を挿入

表 7. さまざまな集計戦略の結果。

5.2 距離条件ピラミッドの研究

  範囲を制限する代わりに、境界ボックスを指定するために、方向スパン、投影領域、可視領域の 3 つの戦略を試します。境界ボックスの方向スパンは、範囲画像の幅に比例します。投影面積は、距離画像に投影された直方体の面積です。可視領域は、対象部分が見える領域です。面積は、2D 検出における標準の割り当て基準であることに注意してください。公正な比較のために、これらのポリシー間で一貫した特定のステップ内のグラウンド トゥルース ボックスの数を維持します。結果を表 8 に示します。悪い結果は、ポーズのバリエーションとオクルージョンに起因すると考えられます。これにより、同じオブジェクトが異なるポーズまたはオクルージョン条件の異なるレイヤーに分類されます。このような結果は、強度、密度などの他のいくつかの物理的特徴が距離によって変化するため、距離画像の縮尺の変化を考慮するだけでは十分ではないことを示しています。

ここに画像の説明を挿入

表 8. さまざまな割り当て戦略の比較。

5.3 加重非最大抑制研究

  セクション 4.3 の主張を裏付けるために、MMDetection3D (https://github.com/open-mmlab/mmdetection3d) の強力なベースラインに基づいて、2 つの典型的なボクセルベースのアプローチで加重 NMS を適用します - PointPillars [9] と SECOND [37] ]。表 9 は、重み付けされた NMS が、ボクセルベースの方法よりも RangeDet の方がはるかに優れていることを示しています。

ここに画像の説明を挿入

表 3.車両と歩行者を評価する WOD 検証分割の結果。サイクリストの詳細なスコアは、補足資料に記載されています。BEV: 鳥瞰図。RV: 遠景。CV: 円筒形ビュー [33]。PV:ポイントビュー。¶: MMDetection3D によって実装されます。最良の結果と次善の結果は、それぞれ赤と青でマークされます。

ここに画像の説明を挿入

表 9. さまざまな検出器の重み付けされた NMS の結果。

5.4 アブレーション実験

  さらに、使用するコンポーネントに対してアブレーション実験を行います。表 1 に結果をまとめます。メタカーネルは、さまざまな環境で効率的かつ堅牢です。RCP と加重 NMS の両方により、システム全体のパフォーマンスが大幅に向上します。最近の 3D 検出器では IoU 予測が一般的ですが [24、26]、RangeDet にかなりの影響を与えるため、表 1 で説明します。

5.5 最先端の方法との比較

  表 3 は、RangeDet が他の純粋な距離ビュー ベースの方法よりも優れており、最先端の BEV ベースの 2 段階の方法よりもわずかに遅れていることを示しています。すべての結果で、興味深い現象が観察されます。レンジビューは長距離検出において不利であるというステレオタイプとは対照的に、RangeDet は、長距離メトリック (つまり、50m-inf) で他のほとんどの比較方法よりも優れています。特に人間の間で。視野とは異なり、BEV の歩行者は非常に小さいです。これにより、距離ビュー表現の優位性と、距離ビュー入力と 3D デカルト出力空間の間の不一致に対する改善策の有効性が再度検証されます。

5.6 キティの結果

  距離表示ベースの検出器は、BEV ベースの検出器よりもデータを大量に消費します。これは、LaserNet [18] で実証されています。広く使用されている KITTI データセット [4] には、RangeDet の可能性を明らかにするのに十分なトレーニング データが含まれていませんが、以前の距離ビュー ベースの方法との公正な比較のために、公式テスト サーバーから KITTI の結果を報告します。表 10 は、RangeDet が、WOD 事前トレーニングから微調整された RCD モデルを含む、以前の距離ベースの方法よりもはるかに優れた結果を達成することを示しています。

ここに画像の説明を挿入

表 10. KITTI 自動車テスト分割での BEV 性能。RCD-FT は、WOD 事前トレーニングから微調整されています。

5.7 ランタイム評価

  Waymo オープン データセットでは、意図的な最適化を行わなくても、モデルは単一の 2080Ti GPU で 12 FPS を達成しています。私たちの方法の実行速度は、有効な検出距離の延長の影響を受けませんが、BEV ベースの方法の速度は、最大検出距離の拡大に伴って急速に遅くなることに注意してください。

6 結論

  RangeDet は、メタカーネル、距離条件付きピラミッド、加重 NMS で構成されるレンジ ビュー ベースの検出フレームワークです。当社の特別な設計により、RangeDet は距離ビューの特性を利用していくつかの課題を克服します。RangeDet は、最先端のマルチビュー ベースの検出器に匹敵する性能を発揮します。

謝辞

この作品は、新世代の AI の主要プロジェクト (No.2018AAA0100400)、中国国立自然科学財団 (No. 61836014、No. 61773375、No. 62072457) によって部分的にサポートされ、TuSimple 共同研究プロジェクトによって部分的にサポートされました。 .

参考文献

[1] Alex Bewley、Pei Sun、Thomas Mensink、Dragomir Anguelov、および Christian Sminchisescu。スケール不変の 3D オブジェクト検出のためのレンジ条件付き拡張畳み込み。ロボット学習会議 (CoRL)、2020. 2、8
[2] Xiaozhi Chen、Huimin Ma、Ji Wan、Bo Li、Tian Xia。自動運転のためのマルチビュー 3D オブジェクト検出ネットワーク。CVPR、ページ 1907–1915、2017 年
ボクセル R-CNN: 高性能ボクセルベースの 3D オブジェクト検出に向けて。2021.8
[4] アンドレアス・ガイガー、フィリップ・レンツ、ラケル・ウルタスン。自動運転の準備はできていますか? kitti ビジョン ベンチマーク スイート。CVPR、3354 ~ 3361 ページ。IEEE、2012.8
[5] スピロス・ギダリスとニコス・コモダキス。マルチリージョン セマンティック セグメンテーション対応 CNN モデルによるオブジェクト検出。ICCV、1134 ~ 1142 ページ、2015 年。5
[6] Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。画像認識のための深層残差学習。CVPR、770 ~ 778 ページ、2016 年。5
[7] Peiyun Hu、Jason Ziglar、David Held、Deva Ramanan。見えるものが得られる: 可視性を利用して 3D オブジェクトを検出します。CVPR、ページ 11001–11009、2020 年。1
[8] Qingyong Hu、Bo Yang、Linhai Xie、Stefano Rosa、Yulan Guo、Zhihua Wang、Niki Trigoni、および Andrew Markham RandLA-Net: 大規模な点群の効率的なセマンティック セグメンテーション。CVPR、11108 ~ 11117 ページ、2020 年。4、7
[9] アレックス・H・ラング、スーラブ・ヴォラ、ホルガー・シーザー、ルービン・チョウ、ジョン・ヤン、オスカー・ベイボム。PointPillars: 点群からのオブジェクト検出のための高速エンコーダー。In CVPR, page 12697–12705, 2019. 1, 2, 7, 8
[10] Bo Li. 点群での車両検出のための 3D 完全畳み込みネットワーク。IROS、1513 ~ 1518 ページ、2017 年。 2
[11] Bo Li、Tianlei Zhang、Tian Xia。完全畳み込みネットワークを使用した 3D LIDAR からの車両検出。2016. 1, 2
[12] Yanghao Li、Yuntao Chen、Naiyan Wang、Zhaoxiang Zhang。オブジェクト検出のためのスケール対応トライデント ネットワーク。ICCV、6054 ~ 6063 ページ、2019 年。2
[13] Zhichao Li、Feng Wang、および Naiyan Wang。LiDAR R-CNN: 効率的でユニバーサルな 3D オブジェクト検出器。CVPR、7546 ~ 7555 ページ、2021 年。2
[14] Tsung-Yi Lin、Piotr Doll´ar、Ross Girshick、Kaiming He、Bharath Hariharan、Serge Belongie。オブジェクト検出のための機能ピラミッド ネットワーク。CVPR、2117 ~ 2125 ページ、2017 年。2、3
[15] Tsung-Yi Lin、Priya Goyal、Ross Girshick、Kaiming He、および Piotr Doll´ar。高密度オブジェクト検出の焦点損失。5
[16] Shu Liu、Lu Qi、Haifang Qin、Jianping Shi、および Jiaya Jia。インスタンス セグメンテーション用のパス集約ネットワーク。CVPR、8759 ~ 8768 ページ、2018 年。2
[17] Yongcheng Liu、Bin Fan、Shiming Xiang、Chunhong Pan。点群解析のための関係形状畳み込みニューラル ネットワーク。CVPR、8895 ~ 8904 ページ、2019 年。1、7
[18] グレゴリー P マイヤー、アンキット ラダ、エリック キー、カルロス バレスピ ゴンザレス、カール K ウェリントン。LaserNet: 自動運転のための効率的な確率論的 3D オブジェクト検出器。CVPR、ページ 12677–12686、2019 年。1、2、5、8
[19] Andres Milioto、Ignacio Vizzo、Jens Behley、および Cyrill Stachniss。RangeNet++: 高速で正確な LiDAR セマンティック セグメンテーション。1
[20] Jiangmiao Pang、Kai Chen、Jianping Shi、Huajun Feng、Wanli Ouyang、および Dahua Lin。Libra R-CNN: オブジェクト検出のためのバランスの取れた学習に向けて。CVPR、821 ~ 830 ページ、2019 年。2
[21] Charles R Qi、Wei Liu、Chenxia Wu、Hao Su、および Leonidas J Guibas。RGB-D データからの 3D オブジェクト検出のための Frustum PointNets。CVPR、918 ~ 927 ページ、2018 年。2
[22] Charles R Qi、Hao Su、Kaichun Mo、および Leonidas J Guibas. PointNet: 3D 分類およびセグメンテーションのためのポイント セットのディープ ラーニング. CVPR、ページ 652–660、2017. 1、2、7 [23]
チャールズRuizhongtai Qi、Li Yi、Hao Su、および Leonidas J Guibas. PointNet++: メトリクス空間のポイント セットでの深層階層特徴学習. In NeurIPS、ページ 5099–5108、2017. 1、2、4 [24] Shaoshuai Shi、
Chaoxu Guo, Li Jiang, Zhe Wang, Jianping Shi, Xiaogang Wang, and Hongsheng Li. PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection. In CVPR, pages 10529–10538, 2020. 1, 2, 8 [
25 ] Shaoshuai Shi、Xiaogang Wang、Hongsheng Li. PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud. In CVPR, pages 770–779, 2019. 1, 2
[26] Shaoshuai Shi、Zhe Wang、Jianping Shi、Xiaogang Wang、および Hongsheng Li。ポイントからパーツへ: パーツ認識およびパーツ集約ネットワークを使用したポイント クラウドからの 3D オブジェクト検出。パターン分析とマシン インテリジェンスに関する IEEE トランザクション、2020 年 8
[27] Bharat Singh および Larry S Davis。オブジェクト検出におけるスケール不変性の分析 - SNIP。CVPR、3578 ~ 3587 ページ、2018 年。2
[28] Bharat Singh、Mahyar Najibi、Larry S Davis。SNIPER: 効率的なマルチスケール トレーニング。NeurIPS、9310 ~ 9320 ページ、2018 年
自動運転の知覚におけるスケーラビリティ: Waymo オープン データセット。CVPR、2446 ~ 2454 ページ、2020 年。2、3
[30] Hugues Thomas、Charles R Qi、Jean-Emmanuel Deschaud、Beatriz Marcotegui、Franc¸ois Goulette、および Leonidas J Guibas。KPConv: 点群の柔軟で変形可能な畳み込み。ICCV、ページ 6411–6420、2019 年
深層パラメトリック連続畳み込みニューラル ネットワーク。CVPR、2589 ~ 2597 ページ、2018 年。1、4、7
[32] Yan Wang、Wei-Lun Chao、Divyansh Garg、Bharath Hariharan、Mark Campbell、Kilian Q Weinberger。視覚深度推定による疑似 LiDAR: 自動運転のための 3D オブジェクト検出のギャップを埋める。CVPR、8445 ~ 8453 ページ、2019 年。2
[33] ユエ・ワン、アリレザ・ファティ、アビジット・クンドゥ、デビッド・ロス、キャロライン・パントファル、トム・ファンクハウザー、ジャスティン・ソロモン。自動運転のための柱ベースの物体検出。In ECCV, 2020. 1, 8
[34] Yue Wang、Yongbin Sun、Ziwei Liu、Sanjay E Sarma、Michael M Bronstein、および Justin M Solomon。点群で学習するための動的グラフ cnn。Acm Transactions On Graphics (tog), 38(5):1–12, 2019. 1, 7
[35] Wenxuan Wu、Zhongang Qi、および Li Fuxin。PointConv: 3 次元点群上の深い畳み込みネットワーク。CVPR、9621 ~ 9630 ページ、2019 年 1、4、7
[36] Chenfeng Xu、Bichen Wu、Zining Wang、Wei Zhan、Peter Vajda、Kurt Keutzer、富塚正義。SqueezeSegV3: 効率的な PointCloud セグメンテーションのための空間適応畳み込み。arXiv プレプリント arXiv:2004.01803, 2020. 1
[37] Yan Yan、Yuxing Mao、Bo Li. SECOND: Sparsely Embedded Convolutional Detection. Sensors、18(10):3337、2018. 1、2、5、8 [38] Bin Yang、Wenjie Luo、Raquel
Urtasun PIXOR: 点群からのリアルタイム 3D オブジェクト検出. CVPR、ページ 7652–7660、2018. 1, 2
[39] Zetong Yang、Yanan Sun、Shu Liu、Xiaoyong Shen、および Jiaya Jia. IPOD: Intensive Point-based Object Detector for Point Cloud. arXiv preprint arXiv:1812.05276, 2018. 2
[40] Zetong Yang, Yanan Sun, Shu Liu, Xiaoyong Shen, and Jiaya Jia. STD: Sparse-to-Dense 3D Object Detector for Point Cloud. ICCV では、 1951–1960 ページ、2019.2
[41] Haoyang Zhang、Ying Wang、Feras Dayoub、Niko S¨underhauf.VarifocalNet: An IoU-aware Dense Object Detector.arXiv preprint arXiv:2008.13367, 2020.5
[42] Yang Zhang、Zixiang Zhou、Philip David、Xiangyu Yue、Zerong Xi、Boqing Gong、および Hassan Foroosh. PolarNet: オンライン LiDAR ポイント クラウド セマンティック セグメンテーションのための改善されたグリッド表現. CVPR、ページ 9601–9610、2020. 1
[43] Hui Zhou, Xinge Zhu, Xiao Song, Yuexin Ma, Zhe Wang, Hongsheng Li, and Dahua Lin. Cylinder3D: An effective 3D Framework for Driving-scene LiDAR Semantic Segmentation. arXiv preprint arXiv:2008.01550, 2020. 1 [44
] ] Yin Zhou, Pei Sun, Yu Zhang, Dragomir Anguelov, Jiyang Gao, Tom Ouyang, James Guo, Jiquan Ngiam, and Vijay Vasudevan. LiDAR 点群における 3D オブジェクト検出のためのエンドツーエンド マルチビュー フュージョン. CoRL 、ページ 923–932、2020. 1、2、8
[45] Yin ZhouとOncel Tuzel。VoxelNet: 点群ベースの 3D オブジェクト検出のためのエンドツーエンドの学習。CVPR、4490 ~ 4499 ページ、2018 年。2

おすすめ

転載: blog.csdn.net/i6101206007/article/details/128798567