PointPillars の論文翻訳 (継続的に更新)

のリンク

2 PoinPillars ネットワーク

PointPillars は点群を入力として受け取り、自動車、歩行者、自転車の 3D ボックスを推定します。

これは 3 つの主要な段階で構成されます (図 2):
(1) 点群をまばらな擬似画像に変換する特徴エンコーダ ネットワーク、
(2) 擬似画像を高レベルの表現に処理する 2D 畳み込みバックボーン ネットワーク、
( 3) ) 3Dボックスを検出して戻すことができる検出ヘッド

2.1 点群から擬似画像へ

2D 畳み込みアーキテクチャを適用するには、まず点群を偽の画像に変換します。

座標 x、y、z および反射強度を持つ点群内の点を l で示します。

最初のステップでは、点群が xy 平面内で等間隔のグリッドに離散化され、一連の柱P \mathcal{P}が作成されます。P∣ P ∣ = B \left | \mathcal{P} \right | = BP =B。 _

ピラーは Z 方向に無限の空間範囲を持つボクセルであるため、Z 次元での分類を制御するためにハイパーパラメーターは必要ないことに注意してください。

各ピラー内のポイントは、r、xc、yc、zc、xp、および yp で強化されます。ここで、r は反射率、下付き文字 c はピラー内のすべての点の算術平均までの距離を示し、下付き文字 p は距離を示します柱からの中心の X、Y オフセット。

さて、強化された LIDAR ポイントl ^ \hat{l}^の寸法は D=9 です。

ここでは LiDAR 点群に焦点を当てていますが、レーダーや RGB-D などの他の点群でも、各点の拡張方法を変更することで PointPillars を使用できます。

[セクション]

点群がまばらであるため、柱のセットはほとんどが空になりますが、空ではない柱には一般にほとんど点がありません。

たとえば、HDL-64E Velodyne LIDAR から KITTI の 0.16*0.16 平方メートルのボックスを使用すると、点群には 6k ~ 9k の空でない列があり、この範囲では通常約 97% のスパース性が使用されます。

この疎性を利用するには、サンプルあたりの空でないビンの数とビンあたりのポイント数 (N) に制限を課し、サイズ (D、P、N) の高密度テンソルを作成します。

サンプルまたはピラーに保持されているデータが多すぎる場合、データはランダムにサンプリングされます。逆に、サンプルまたはプロップのデータが少なすぎてテンソルを埋めることができない場合は、ゼロ パディングが使用されます。

[セクション]

次に、PointNet の簡略版を使用します。ここでは、各点に線形層が適用され、続いて Batch-Norm [10] と ReLU [19] が適用され、サイズ (C, P, N) のテンソルが生成されます。

これに続いて、サイズ (C,P) の出力テンソルを作成するためにチャネルに対する max 演算が行われます。線形層はテンソル上の 1x1 畳み込みとして定式化できるため、非常に効率的な計算が行われることに注意してください。

エンコード後、フィーチャは元の柱の位置に広げられて、サイズ (C、H、W) の疑似イメージが作成されます。ここで、H と W はキャンバスの高さと幅を示します。

ボクセルの代わりにピラーを使用することを選択していることに注意してください。これにより、[33] の畳み込み中間層での高価な 3D 畳み込みをスキップできます。

2.1 バックボーン

[33] と同様のバックボーンを使用し、その構造を図 2 に示します。バックボーン ネットワークには 2 つのサブネットワークがあります。1 つは空間解像度がますます小さくなり、特徴を生成するトップダウン ネットワーク、もう 1 つはトップダウンの特徴のアップサンプリングと連結を実行するネットワークです。トップダウンのバックボーンは、一連のブロック (S、L、F) によって説明できます。

おすすめ

転載: blog.csdn.net/lb5482464/article/details/126171742