自動運転のためのマルチビュー3Dオブジェクト検出ネットワーク

1.まとめ

MV3Dは、LIDAR点群とRGBをネットワーク入力として使用して、方向のある3Dバウンディングボックスを予測します。ネットワークには2つの部分があります。1。3Dターゲットプロポーザルの生成; 2.マルチビューフィーチャーの融合。 3D候補ボックスを生成します。また、マルチビューの領域ごとの機能と組み合わせたディープフュージョンメカニズムを設計し、さまざまなパスの下の中間層で情報交換を実行します。

2.はじめに

ネットワークパイプライン

3.関連作業

点群での3Dオブジェクト検出

ほとんどの方法では、ボクセルグリッド表現、スライディングシェイプ、Vote3Dの3D点群を使用して、3Dオブジェクト検出にSVM分類器を使用します。VeloFCNは点群を正面図に投影します。

画像内の3Dオブジェクト検出

3DVPは、2D検出と3D姿勢推定に3DボクセルモードとACF検出器を使用します。3DOPは、エントロピー最小化の方法を使用して両眼画像から深度を再構築し、ターゲット認識のためにR-CNNに入力します。Mono3Dと3DOPは同じパイプラインを持っていますが、3Dプロポーザルを生成するために単眼画像のみを使用します。時系列情報を融合するために、一部の作業では、2Dターゲット検出と3Dターゲット検出を、動きのある構造と地面推定と組み合わせています。

マルチモーダルフュージョン

[10]画像、深度、オプティカルフローを組み合わせ、2D歩行者検出にハイブリッドフレームワークを使用します。[7] RGBと深度画像を早い段階で融合し、ポーズベースの2D分類器をトレーニングします。この記事の方法は[14、26]に触発されました。

3Dオブジェクトの提案

……

4. MV3Dネットワークアーキテクチャ

ネットワークの入力は、マルチビューのポイントクラウド入力とRGB画像です。最初に、鳥瞰図から3D提案が生成され、領域の特徴表現に基づいてマルチビューの特徴融合が実行されます。融合された特徴は、分類と方向付き3Dボックス回帰に使用されます。

4.1 3D点群表現

4.1.1鳥瞰図の表現

鳥瞰図では、高さ、強度、密度の情報が含まれており、投影された点群は、0.1mの解像度で2Dグリッドに離散しています。各セルの高さは、セルの最大の高さです。より詳細な高さ情報を取得するには、点群を等しいMスライスに分割し、各スライスに高さマップがあるため、M個の高さマップを取得できます。強度の特徴は、各セルの最も高い点群の反射値です。点群の密度は、各セル内の点群の数を示します。すべての点群は強度と密度の特徴を計算する必要があり、Mスライスは高さ特徴を計算する必要があるため、鳥瞰図の特徴チャネルは(M + 2)です。

4.1.2正面図の表現

正面図は鳥瞰図の補足機能を提供します。レーダーポイントクラウドは非常にまばらなので、それを画像平面に投影すると、まばらな2Dポイントマップになります。この記事では、円柱面に投影して、高密度の正面図を生成します。3D点群p =(x、y、z)の場合、対応する正面図の座標は次のとおりです。

、どこ

 

4.2 3Dプロポーザルネットワーク

入力として鳥瞰図を使用すると、3Dターゲット検出ネットワークでは、鳥瞰図に正面図および画像よりも次の利点があります。1.鳥瞰図に投影すると、ターゲットの物理的なサイズが保持されます。2。鳥瞰図でターゲットが占有されます。さまざまなスペースでのオクルージョン問題を回避するために、3。道路シーンでは、ターゲットは水平舗装を占め、垂直位置の分散は小さく、鳥瞰図ではより正確な3Dバウンディングボックスを取得できます。

鳥瞰図の場合、ネットワークは3Dアプリオリボックスから3Dボックスの提案を生成します。各3Dボックスのパラメーターは(x、y、z、l、w、h)であり、点群座標系の下のターゲットの中心位置を表しますそして、ターゲットのサイズ前の3Dフレームごとに、鳥瞰図に対応するアンカーを離散化(x、y、l、w)によって取得できます。この論文では、N個の3D先行フレームはクラスタリングト​​レーニングセットの真理値によって設計されています。車の場合、(l、w)の値は{(3.9、1.6)、(1.0、0.6)}で、高さは1.56mです。

レーザーの点群はまばらなので、多くの空のアンカーにつながります。このペーパーでは、これらの空のアンカーを削除して計算量を減らします。空でないアンカーごとに、ネットワークは3Dボックスを生成します。冗長性を減らすために、抑制にはNMSが使用されます。

 

4.3地域ベースの融合ネットワーク

4.3.1マルチビューROIプーリング

異なる視点とモダリティからの特徴は、解像度が異なります。ROIプーリングは、各ビューで同じ長さの特徴ベクトルを取得するために使用されます。このホワイトペーパーでは、生成された3Dプロポーザルは、鳥瞰図(BV)、正面の3つのビューに投影されます。ビュー(FV)とイメージプレーン(RGB)は、3Dの提案を前提として、次のモデルを使用して各ビューのROIを取得します。

各ビューのフロントエンドネットワークから入力特徴マップxが与えられると、ROIプーリングを介して固定長特徴fvを取得し  ます。

 

4.3.2深い統合

 、 

4.3.3方向付き3Dボックス回帰

3Dボックスの8つの頂点に戻ります

マルチタスク損失は、ターゲットのカテゴリと方向を予測するために使用されます。クロスエントロピー損失はカテゴリ損失に使用され、l1損失は3Dボックス損失に使用されます。3Dプロポーザルがポジティブサンプルになるための条件は、プロポーザルのIOUと真の値が0.5より大きい場合、それ以外の場合はネガティブサンプルです。推論段階では、NMSが3Dボックスで使用され、しきい値は0.05です。

4.3.4ネットワークの正則化

 反復ごとに、50%の確率でグローバルドロップパスまたはローカルドロップパスをランダムに選択します。グローバルドロップパスの  場合は3つのビューの1つをランダムに選択し、ローカルドロップパスの場合は次のように入力します。パスが削除される可能性は50%です。少なくとも1つの入力があることを確認してください。

 ネットワークに補助経路と損失を追加する

 

 

5.実験

 

おすすめ

転載: www.cnblogs.com/ahuzcl/p/12691286.html