論文通訳 | センターベースの 3D オブジェクトの検出と追跡

原文 | 文:BFT Robot

写真

CenterPoint は、境界ボックスを使用する代わりに 3D オブジェクトを点として表現、検出、追跡するという点で、従来のボックスベースの 3D オブジェクト検出器およびトラッカーとは異なります。このアプローチには、物体検出器の検索スペースの削減、追跡などの下流タスクの簡素化、以前のアプローチよりもはるかに高速な効率的な 2 段階改良モジュールの設計の可能化など、いくつかの利点があります。さらに、CenterPoint を使用すると、バックボーン ネットワークがオブジェクトの回転不変性とオブジェクトの相対回転の回転等変性を学習できるようになります。検出はシンプルで洗練された局所ピーク抽出であり、追跡は最近距離マッチングです。

写真

オブジェクトの検出と追跡のためのセンターベースのフレームワーク

このペーパーでは主に、境界ボックスを使用する代わりに 3D オブジェクトを点として表現、検出、追跡する CenterPoint と呼ばれる新しいフレームワークについて説明します。この方法により、検出および追跡プロセスが簡素化され、ベンチマーク データセットで最先端のパフォーマンスが実現されます。この論文の著者は、新しい中心点検出ヘッドも導入していますが、既存の 3D バックボーン ネットワーク (VoxelNet や PointPillars など) に依存しています。

私たちの方法は、従来のボックスベースの検出器の課題を克服し、3D オブジェクトの追跡を簡素化します。予備作業では、まず、ボックスベース、アンカーベース、ポイントベースの方法など、3D オブジェクトの検出と追跡の分野における現在の最先端の方法をレビューします。この分野で使用される一般的なデータセットと評価指標についても説明します。次に、アプローチの主なアイデアと貢献を紹介し、CenterPoint フレームワークの設計と実装について詳しく説明します。最後に、いくつかのベンチマーク データセットで実験を実施し、私たちの手法の優れたパフォーマンスを実証します。

CenterPoint は、まずキーポイント検出器を使用してオブジェクトの中心を検出し、3D サイズ、3D 方向、速度などの他のプロパティにフォールバックします。第 2 段階では、オブジェクト上の追加の点特徴を使用してこれらの推定値を調整します。結果として得られる検出および追跡アルゴリズムは、シンプルで効率的かつ効果的です。CenterPoint は、nuScenes ベンチマークで、単一モデルの NDS が 65.5、AMOTA が 63.8 という最先端の 3D 検出および追跡パフォーマンスを達成しました。Waymo Open Dataset では、CenterPoint は以前のすべての単一モデル手法を大幅に上回り、すべての LIDAR 専用手法の中でトップにランクされています。

中心点フレームワークの概要

この記事では、VoxelNet や PointPillars などの標準的な LIDAR ベースのバックボーン ネットワークを使用して、入力点群の表現を構築する方法について説明します。次に、この表現を上面図に平坦化し、標準の画像ベースのキーポイント検出器を使用してオブジェクトの中心を見つけます。検出された中心ごとに、中心位置の点特徴から 3D サイズ、向き、速度などの他のすべてのオブジェクト プロパティにまで遡っていきます。さらに、軽量のセカンドステージを使用してオブジェクトの位置を最適化します。この第 2 段階では、オブジェクトの推定された 3D バウンディング ボックスの各面の 3D 中心にあるポイント フィーチャが抽出されます。歩幅や受容視野の制限によって失われた局所的な幾何学的情報を回復し、低コストで大幅なパフォーマンスの向上をもたらします。

01

実験結果

この記事では、まず Waymo と nuScenes のテスト セットでの 3D 検出結果を示します。どちらの結果も、単一の中心点ボクセル モデルを使用しています。Waymo テストセットでは、当社のモデルは車両検出で 71.8 レベル 2 mAPH、歩行者検出で 66.4 レベル 2 mAPH を達成しました。これは、車両で 7.1% の mAPH、歩行者で 10.6% の mAPH を達成する以前の方法を上回りました。nuScenes では、私たちのモデルは、マルチスケール入力およびマルチモデル アンサンブルにおいて、昨年のチャレンジ勝者 CBGS を 5.2% mAP および 2.2% NDS 上回りました。

写真

私たちのモデルは、リーダーボードの提出後に主催者によって評価される隠れた指標であるニューラル プレーン メトリクス (PKL) に基づく他のすべての提出を大幅に上回っています。これは、私たちのフレームワークの一般化能力を強調しています。

Waymo テスト セットでの 3D トラッキング、中心点トラッキングのパフォーマンスの場合、トラッキングには別のモーション モデルは必要なく、実行時間はごくわずかで、検出より 1 ミリ秒上です。

私たちの論文の 2 段階中心点モデルでは、2 次元 CNN 特徴マップ内の特徴のみが使用されます。ただし、以前の方法では、改良の第 2 段階でボクセル特徴を使用することも提案されていました。

写真

Waymoの中心ポイントによる検証の定性的結果

02

結論は

この論文では、3D オブジェクトの検出と LiDAR 点群の追跡の両方のためのセンターベースのフレームワークを提案します。基本的に、ヘッド内にいくつかの畳み込み層を備えた標準の 3D ポイント クラウド エンコーダを使用して、バード ビュー ヒートマップやその他の密な回帰出力を生成します。Centerpoint はシンプルでほぼリアルタイムで、Waymo と nuScenes のベンチマークでの複数のテストを通じて最先端のパフォーマンスを達成しています。

著者 | 張哲宇

植字 | Xiaohe

レビュー | オレンジ

この記事の内容についてご質問がございましたら、お問い合わせいただければ迅速に対応させていただきます。もっと最先端の情報を知りたい方は、ぜひ「いいね!」と「フォロー」を忘れずに!

おすすめ

転載: blog.csdn.net/Hinyeung2021/article/details/132762260