VoxelNet論文翻訳

概要

3D 点群内のオブジェクトを正確に検出することは、自律ナビゲーション、屋内ロボット工学、拡張現実/仮想現実などの多くのアプリケーションにおいて中心的な問題です。

高度にまばらな LiDAR 点群を地域提案ネットワーク (RPN) とインターフェースするために、既存の取り組みのほとんどは、鳥瞰投影などの手作りの特徴表現に焦点を当てています。

この研究では、3D 点群の手動特徴設計の必要性を排除し、単一段階、エンドツーエンド)、訓練可能な深層ネットワーク用の汎用 3D 検出ネットワーク、つまり VoxelNet を提案します。

具体的には、VoxelNet は点群を等間隔の 3D ボクセルに分割し、新しく導入されたボクセル特徴エンコーディング (VFE) レイヤーを通じて各ボクセル内の一連の点を統一された特徴表現に変換します。

このようにして、点群は記述的な体積表現にエンコードされ、RPN に連結されて検出が生成されます。

KITTI 車両検出ベンチマークの実験では、VoxelNe が既存の LIDAR ベースの 3D 検出方法を大幅に上回る性能を示しています。

さらに、私たちのネットワークは、さまざまな形状のオブジェクトの効率的な識別特徴表現を学習し、歩行者や自転車の LIDAR のみの 3D 検出で有望な結果をもたらします。

1 はじめに

点群ベースの 3D オブジェクト検出は、自律ナビゲーション [11、14]、家事ロボット [28]、拡張現実/仮想現実 [29] など、さまざまな現実世界のアプリケーションの重要なコンポーネントです。

画像ベースの検出と比較して、LiDAR は、物体の位置を正確に特定し、その形状を特徴付けるために使用できる信頼性の高い深度情報を提供します [21、5]。

ただし、画像とは異なり、LiDAR 点群はまばらであり、3D 空間の不均一なサンプリング、センサーの有効範囲、オクルージョン、相対姿勢などの要因により、点密度は非常に変動します。

これらの課題に対処するために、多くの方法では、3D オブジェクト検出のために点群の特徴表現を手動で抽出します。

いくつかの方法では、点群を透視図マップに投影し、画像ベースの特徴抽出技術を適用します [28、15、22]。

他の方法では、点群を 3D ボクセル グリッドにラスタライズし、各ボクセルを手動で抽出してエンコードします [43、9、39、40、21、5]。

ただし、これらの手動による設計の選択により、情報のボトルネックが生じ、これらの方法では検出タスクに必要な 3D 形状情報と不変性を効果的に活用できなくなります。

手動による特徴抽出から機械学習による特徴抽出への移行は、画像認識 [20] および検出 [13] タスクにおける大きな進歩です。

[セクション]

最近、Qi ら [31] は、点群から直接点ごとの特徴を学習するエンドツーエンドのディープ ニューラル ネットワークである PointNet を提案しました。

この方法は、3D オブジェクト認識、3D オブジェクト セグメンテーション、およびポイントツーポイント セマンティック セグメンテーションにおいて優れた結果を達成します。

[32] では、ネットワークがさまざまなスケールでローカル構造を学習できるようにする、改良された PointNet モデルが導入されています。

満足のいく結果を達成するために、これら 2 つの方法はすべての入力ポイント (約 1k ポイント) で特徴変換ネットワークをトレーニングします。

LiDAR で取得される一般的な点群には約 100,000 点が含まれるため、[29、30] のようなアーキテクチャをトレーニングすると、高い計算量とメモリ要件が発生します。

3D 特徴学習ネットワークと 3D 検出タスクを数桁まで拡張することが、このペーパーで扱う主な課題です。

[セクション]

領域提案ネットワーク (RPN) [34] は、非常に効果的な物体検出アルゴリズムです [17、5、33、24]。

ただし、この方法で必要なデータは、高密度で組織化されたテンソル構造 (画像、ビデオなど) であり、典型的な LiDAR 点群のデータ構造ではありません。

この論文では、3D オブジェクト検出タスクにおける点セット特徴学習と RPN の間のギャップを埋めます。

[セクション]

私たちは、一般的な 3D 検出フレームワークである VoxelNet を提案します。これは、図 2 に示すように、点群から識別特徴表現を同時に学習し、正確な 3D 境界ボックスをエンドツーエンドで予測します。

ここに画像の説明を挿入

点特徴を局所的に集約された特徴と組み合わせることで、ボクセル内でのポイントツーポイントのインタラクションを可能にする新しいボクセル特徴エンコーディング (VFE) レイヤーを設計します。

複数の VFE レイヤーを積み重ねることにより、複雑な特徴を学習してローカル 3D 形状情報を表現できるようになります。

具体的には、VoxelNet は点群を等間隔の 3D ボクセルに分割し、積み重ねられた VFE レイヤーを通じて各ボクセルをエンコードし、その後 3D 畳み込みによってローカル ボクセルの特徴をさらに収集し、点群を高次元の体積表現に変換します。

最後に、RPN はボリューム表現を取得し、検出結果を生成します。

この効率的なアルゴリズムは、まばらな点構造とボクセル グリッドの効率的な並列処理の両方に有利です。

[セクション]

KITTI ベンチマーク [11] によって提供される鳥瞰図検出および完全 3D 検出タスクに基づいて VoxelNet を評価します。

実験結果は、VoxelNet が既存の LIDAR ベースの 3D 検出方法よりも大幅に優れていることを示しています。

また、VoxelNet が LIDAR 点群からの歩行者と自転車の検出に関して非常に有望な結果を達成することも実証します。

1.1 関連作品

3D センサー技術の急速な発展により、研究者は点群内のオブジェクトを検出して位置を特定するための効率的な表現を開発するようになりました。

初期の特徴表現方法には [41,8,7,19,42,35,6,27,1,36,2,25,26] などがあります。

これらの手作りの特徴は、豊富で詳細な 3D 形状情報が利用可能な場合に満足のいく結果をもたらします。

ただし、より複雑な形状やシーンには適応できず、必要な不変性をデータから学習することができないため、自律ナビゲーションなどの制御されていないシナリオでは成功が限られます。

[セクション]

画像が詳細なテクスチャ情報を提供することを考慮して、多くのアルゴリズムは 2D 画像から 3D バウンディング ボックス (3D バウンディング ボックス) を推測します [4、3、44、45、46、38]。

ただし、画像ベースの 3D 検出方法の精度は、奥行き推定の精度によって制限されます。

[セクション]

一部の LIDAR ベースの 3D オブジェクト検出技術では、ボクセル グリッド表現が利用されます。

[43,9] は、ボクセルに含まれるすべての点から導出された 6 つの統計情報を使用して、空ではない各ボクセルをエンコードします。

[39] 複数のローカル統計を融合して各ボクセルを表します。

[40] ボクセル グリッド上の切り捨てられた符号距離を計算します。

[21] 3D ボクセル グリッドのバイナリ エンコーディングを使用します。

[5] は、鳥瞰図でのマルチチャネル特徴マップと正面図での円筒座標を計算することにより、LiDAR 点群のマルチビュー表現を導入しました。

他のいくつかの研究では、点群を透視図マップ上に投影し、画像ベースの特徴エンコーディング スキームを使用しています [30、15、22]。

[セクション]

画像と LIDAR を組み合わせて検出精度を向上させるさまざまなマルチモーダル フュージョン手法も存在します [10、16、5]。

これらの方法は、カメラが LIDAR よりも桁違いに大きな測定値を提供するため、特に小さな物体 (歩行者、自転車) や物体が遠くにある場合に、LIDAR のみの 3D 検出と比較してパフォーマンスが向上します。

ただし、時刻の同期と LIDAR に合わせた校正が必要なカメラでは、その使用が制限され、ソリューションがセンサーの故障モードに対してより敏感になります。

この作業では、LIDAR 検出のみに焦点を当てます。

1.2. 貢献

  • 我々は、点群ベースの 3D 検出のための新しいエンドツーエンドのトレーニング可能なディープ アーキテクチャ VoxelNet を提案します。これは、まばらな 3D 点を直接操作し、手動の特徴取得によって生じる情報のボトルネックを回避します。
  • 私たちは、まばらな点構造とボクセル グリッド上の効率的な並列処理の両方にメリットをもたらす VoxelNet の効率的な実装を提案します。
  • 私たちは KITTI ベンチマークで実験を実施し、VoxelNET が LIDAR ベースの自動車、歩行者、自転車検出ベンチマークで最先端の結果を生み出すことを示しました。

2 ボクセルネット

このセクションでは、VoxelNET のアーキテクチャ、トレーニングに使用される損失関数、ネットワークを実装するための効率的なアルゴリズムについて説明します。

2.1 ボクセルネットのアーキテクチャ

提案された VoxelNet は、図 2 に示すように、(1) 特徴学習ネットワーク、(2) 畳み込み中間層、および (3) 領域提案ネットワークの 3 つの機能ブロックで構成されます [34]。VoxelNet については、次のセクションで詳しく紹介します。

2.1.1 機能学習ネットワーク

ボクセル分割

図 2 に示すように、点群が与えられた場合、3D 空間を等距離のボクセルに分割します。点群には、それぞれ Z、Y、X 軸に沿った D、H、W を持つ 3 次元空間が含まれていると仮定します。

それに応じて、各ボクセル VD、VH、および VW のサイズを定義します。得られた 3D ボクセル グリッドのサイズは、D'=D/VD、H'=H/VH、W'=W/VW となります。

ここでは簡単のため、D、H、W が VD、VH、VW の倍数であると仮定します。

グループ

ポイントが配置されているボクセルに従ってポイントをグループ化します。

LiDAR 点群はまばらであり、距離、オクルージョン、相対的なオブジェクトの姿勢、不均一なサンプリングなどの要因により、点密度は空間全体で非常に変化します。

したがって、グループ化後、ボクセルには可変数のポイントが含まれます。

図 2 は、Voxel-1 に Voxel-2 および Voxel-4 よりも多くのポイントがある一方、Voxel-3 にはポイントが含まれていない例を示しています。

無作為抽出

通常、高解像度 LIDAR 点群は約 100,000 点で構成されます。

すべてのポイントを直接処理すると、コンピューティング プラットフォームのメモリ/効率の負担が増加するだけでなく、空間全体のポイント密度が非常に変動するため、検出結果に偏りが生じる可能性があります。

この目的を達成するために、T 点を超えるボクセルから固定数 T をランダムにサンプリングします。

このサンプリング戦略は 2 つの目的、(1) 計算量の節約 (詳細についてはセクション 2.3 を参照)、(2) ボクセル間のポイントの不均衡の削減、サンプリング バイアスの削減、およびトレーニングのバリエーションの増加です。

スタックドボクセル特徴エンコーディング

主要な革新は、VFE レイヤーのチェーン化です。

簡単にするために、図 2 は 1 つのボクセルに対する階層的特徴エンコード プロセスを示しています。

一般性を失うことなく、VFE レイヤ 1 を使用して次の段落で詳細を説明します。図 3 は、VFE レイヤ 1 のアーキテクチャを示しています。

ここに画像の説明を挿入
V = { pi = [ xi , yi , zi , ri ] T ∈ R 4 } V = \left \{ p_{i} =[x_{i},y_{i},z_{i},r_{i} ]^T \in \mathbb{R}^{4}\right \}V={ p私は=[ ×私はy私はz私はr私は]TR4 }
V は、t (t <= T) 個の LIDAR 点を含む空でないボクセルとして表されます。ここで、pi には i 番目の点の XYZ 座標が含まれ、ri は受信した反射率です。

まず、( vx , vy , vz ) (v_{x}, v_{y}, v_{z})として示される、V 内のすべての点の重心として局所平均を計算します。v×vはいvz

次に、各点 Pi が重心に関連する相対オフセットで拡張され、入力特徴セット Vin
V in = { p ^ i = [ xi , yi , zi , ri , xi − vx , yi − vy , zi − vz ] が得られます。 T ∈ R 7 } i = 1... t V_{in} = \left \{ \widehat{p}_{i} =[x_{i},y_{i},z_{i},r_{i } ,x_{i}-v_{x},y_{i}-v_{y},z_{i}-v_{z}]^T \in \mathbb{R}^{7}\right \}_ { i=1...t}V={ p 私は=[ ×私はy私はz私はr私はバツ私はv×y私はvはいz私はvz]TR7 }i = 1... t

次に、pi は完全接続ネットワーク (FCN) を通じて特徴空間に変換されます。ここで、点特徴 fi ∈ R m f_{i} \in \mathbb{R}^mから始めることができます。f私はRm は、ボクセルに含まれるサーフェスの形状をエンコードするための情報を集約します。

FCN は、線形層、バッチ正規化 (BN) 層、および修正線形単位 (ReLU) 層で構成されます。

ポイント単位の特徴表現を取得した後、要素単位の最大プーリングを使用してすべてを反復します。V関連のfi f_{i}f私は局所的な集約特徴を取得するにはf ~ ∈ R m \tilde{f}\in \mathbb{R}^mf~Rメートル

最後に、f ~ \tilde{f}を使用します。f~fi f_{i}を増やすにはf私は点 i のカスケード特徴を形成するには、次のようになります。fiout = [ fi T , f ~ i T ] ∈ R m f_{i}^{out}=[f_{i}^{T},\tilde{f}_{i }^{T}] \in \mathbb{R}^mfあなた_=[ fTf~T]Rメートル

したがって、出力特徴セットV out = { fiout } i . . . t V_{out}= \left \{ f_{i}^{out} \right \} _{i...t} が得られます。Vあなた_={ fあなた_}私は... t

空ではないすべてのボクセルは同じ方法でエンコードされ、FCN 内の同じパラメーター セットを共有します。

[セクション]

VFE - i ( C in , C out ) i(C_{in},C_{out}) を使用します。CCあなた_) C_{in} の寸法 C を表しますC入力フィーチャは次元C out C_{out}に変換されます。Cあなた_i 番目の VFE レイヤーの出力機能。

線形層の学習次元はC in × ( C out / 2 ) C_{in} ×(C_{out}/2)です。C×( Cあなた_2 )行列、ポイントごとのカスケードによりC out C_{out}Cあなた_出力。

[セクション]

出力フィーチャはポイント フィーチャとローカルに集約されたフィーチャを組み合わせるため、VFE レイヤーを積み重ねることでボクセル内のポイント インタラクションをエンコードし、最終的なフィーチャ表現で記述的な形状情報を学習できるようになります。

ボクセルごとの特徴は、FCN \mathbb{R}^Cを介して VFE-n の出力を変換することによって RC に変換されます。R図 2 に示すように、 C は要素ごとの最大プーリングを適用することによって取得されます。ここで、C はボクセルごとの特徴の次元です。

[セクション]

スパーステンソル表現

空ではないボクセルのみを処理することによって、ボクセルの特徴のリストが得られます。各ボクセルの特徴は、特定の空ではないボクセルの空間座標に一意に関連付けられています。

取得されたボクセル特徴のリストは、サイズ C × D ' D'のスパース 4D テンソルとして表現できます。D ×H」「H」H ×W」W」W図 2 に示すように

点群には約 100,000 個の点が含まれていますが、通常はボクセルの 90% 以上が空です。

非ヌル ボクセル フィーチャをスパース テンソルとして表現すると、バックプロパゲーション中のメモリ使用量と計算コストが大幅に削減され、効率的な実装にとって重要なステップとなります。

2.1.2 畳み込み中間層

ConvMD(cin, cout, k, s, p) を使用して M 次元の畳み込み演算を表現します。ここで、cin と cout は入力チャネルと出力チャネルの数、k、s、p は、コンボリューション カーネル (カーネル サイズ) サイズ、ストライド サイズ (ストライド サイズ)、およびパディング サイズ (パディング サイズ)。

サイズが M 次元を通じて同じである場合、このサイズを表すためにスカラーを使用します。たとえば、k は k=(k,k,k) に対応します。

[セクション]

各畳み込み中間層は、3D 畳み込み、BN 層、ReLU 層に周期的に適用されます。

畳み込み中間層には、徐々に大きくなる受容野にわたってボクセルごとの特徴が組み込まれており、形状の記述により多くのコンテキストが追加されます。

畳み込み中間層のフィルターの詳細なサイズについては、セクション III で詳しく説明します。

2.1.3 地域提案ネットワーク

最近,

[セクション]

RPN への入力は、畳み込み中間層によって提供される特徴マップです。

このネットワークの構造を図 4 に示します。

ここに画像の説明を挿入

このネットワークには 3 つの完全な畳み込み層ブロックがあります。

各ブロックの最初の層は、ストライド サイズ 2 の畳み込みによって特徴マップを半分にダウンサンプリングし、続いてストライド 1 の一連の畳み込みを行います (×q はフィルターの q 適用を意味します)。

各畳み込み層の後に、BN および ReLU 演算が実行されます。

次に、各ブロックの出力を固定サイズにアップサンプリングし、連結して高解像度の特徴マップを構築します。

最後に、特徴マップは、目的の学習目標、つまり尤度スコア マップと回帰マップにマッピングされます。

(つづく)

2.2. 損失関数

2.3.効率的な実装

3 トレーニングの詳細

3.1 ネットワークの詳細

3.2. データ拡張

4 実験

4.1 KITTI検証セットの評価

4.2 KITTIテストセットの評価

5。結論

おすすめ

転載: blog.csdn.net/lb5482464/article/details/125683167
おすすめ