元のリンク: https://arxiv.org/abs/2307.11323
1 はじめに
BEVDetシリーズモデルに基づいて、この論文はHVDetFusionと呼ばれる2段階検出器を提案します。
3 HVDetFusion メソッド
図に示すように、この記事のモデルは入力としてマルチビューまたはシングルビューの画像のみを使用でき、レーダー点群データを追加することもできます。画像に対してデータ拡張が実行された後、画像はバックボーン ネットワークに入力され、画像の特徴が抽出されます。画像特徴の一部はディープ ネットワークに入力され、他の部分はディープ ネットワークの出力とともにビュー変換に使用されます。ビュー変換は、マルチビュー画像の特徴を融合します。トレーニング プロセス中、LIDAR 点群の正確な位置情報も BEV の特徴を調整するために使用され、予測結果は検出ヘッドを通じて取得されます。レーダー データが追加されると、レーダー点群がフィルタリングされ、検出ヘッドの出力特徴と融合されて、二次検出ヘッドに入力されます。
3.2 レーダー相関
BEVDet4D を基本ネットワークとして使用し、補助ブランチを追加してレーダー データを処理し、深さと速度の情報を取得して、メインの検出ブランチと融合します。理想的な融合を実現するには、レーダー点群内の物体の位置情報が正しい画像特徴領域と一致していることを確認する必要があります。したがって、融合前に、画像特徴の分布が物体の位置のアプリオリとして使用され、レーダー点群の無効な部分が除外されます。プロセスを次の図に示します。
次に、点群の位置情報は BEV の下で 2D 境界ボックスに処理されます。2 つの 2D バウンディング ボックスが重なっている場合、重なっている位置の中線が新しい境界として使用されます。一方、画像検出器の回帰結果がグランド トゥルースとして取得され、レーダーからの 2D バウンディング ボックスとグランド トゥルースの間の IoU が計算されます。上記のプロセスには 2 つのハイパーパラメータがあります: BEV バウンディング ボックス スケーリング係数α \alphaαとマッチングの難易度を制御する閾値β \betaβ。β \betaを減らすことでβまたはα \alphaα、各オブジェクト領域には、より多くのレーダー点群情報を含めることができます。適切なハイパーパラメータを選択すると、位置オフセットが大きいノイズ ポイントをフィルタリングできます。
レーダーの 2D 境界ボックスをフィルタリングした後、各 2D 境界ボックスの対応するレーダー ポイントの位置と速度情報がテンソルに集約され、新しく生成されたレーダー BEV 特徴マップ内の対応する領域に割り当てられます (これらの領域は、一致した境界ボックスの 1 対 1 対応)。レーダー特徴マップは、BEV エンコーディング モジュールによって生成された BEV 特徴マップと結合され、二次検出ヘッドに入力されて、検出精度がさらに向上します。
上記のプロセスを次の図に示します。
4 実装の詳細
4.2 融合プロセス
初期検出ヘッドの位置回帰値を、誤検出レーダー ポイントをフィルタリングする前の位置として使用します。BEV 境界ボックスの基準サイズは長さと幅が 1 メートルに設定されます。歩行者やコーンなどの小さな物体は考慮されません。融合中; CenterHead が融合後の回帰ヘッドとして使用されます; レーダー点群がまばらになるのを避けるために、現在のフレームの前の 2 つのフレームが補足として使用されます。
5 件の結果
5.1 nuScenes 検証セットの結果
他の方法と比較して、私たちの方法は、低解像度の画像を使用する場合に比較的高いパフォーマンスを達成できます。HVDetFusion の速度推定精度はより高く、これはマルチフレーム フュージョンとレーダー点群の利用に起因します。
5.2 nuScenes テストセットの結果
テスト中にデータ拡張を使用すると、HVDetFusion は以前の最高のフュージョン結果 CRN を大幅に超える可能性があります。CRN と比較して、この方法の小さな物体の検出精度は大幅に高くなります。
6 アブレーション研究
実験の結果、BEVDet シリーズと比較して、より高度な画像バックボーンの置き換え、トレーニング中の将来のフレームの考慮、COCO の事前トレーニング済みモデルの使用、より大きな画像解像度の使用、レーダー信号の導入のすべてがパフォーマンスを向上できることが示されています。