紙速読み取り -- LiMoSeg

紙速度読み取り – LiMoSeg: リアルタイム鳥瞰図ベースの LiDAR モーション セグメンテーション

先赞后看,养成好习惯。有帮助的话,点波关注!我会坚持更新,感谢您的支持!

参考
1. LiMoSeg
2. SECOND: スパースに埋め込まれた畳み込み検出
3. BEVDetNet

1. 概要

移動物体の検出とセグメンテーションは、自動運転の包括的なソリューションにおいて不可欠なタスクの 1 つです。三帧この論文は、連続点群データを使用し、BEV データ表現を使用し、ピクセルレベルの動的および静的バイナリ分類を示す、新しいリアルタイム点群モーション セグメンテーション ネットワーク構造を提案します。同時に、この記事では、数据增强過去のフレームで静止車両を人為的にトリミングし、現在のフレームで移動オブジェクトを合成することにより、動的クラスと静的クラス間の不均衡を効果的に軽減する方法を提案しています。Nvidia Jetson Xavier プラットフォームでは8ms推論速度をテストし、定量的な評価結果が得られます。

2. はじめに

表面幾何学に基づくオブジェクト検出およびセグメンテーションと比較すると、CNN ベースのモーション セグメンテーション手法はまだ未熟です。カメラは豊富な色情報を提供できますが、深度情報が不足しており、照明条件に依存するため、天候と照明条件に関しては LiDAR の方が有利です。

主な仕事

  • BEV 表現を使用して各ピクセルを移動または静的に分類する、新しいリアルタイム点群モーション セグメンテーション スキームが提案されています。
  • マルチフレームモーションを使用して動的部分と静的部分の間のピクセル値の差を改善するために、スタッガード計算レイヤーが導入されています。
  • データ拡張テクノロジーは、静的オブジェクトを回転および連続フレームに変換することでシミュレーションの目的を達成し、クラス間の不均衡の問題を効果的に解決するために導入されています。

関連研究:
ほとんどのモーション セグメンテーション スキームは視覚に基づいており、視覚とレーザー フュージョン スキームもありますが、レーザー モダリティのみを使用するスキームは最近になって普及しました。従来の手法は、RANSAC+クラスタリングという手法です。シーン フロー スキームはノイズや低速オブジェクトの影響を受けにくく、ほとんどのセマンティック セグメンテーションには多数のパラメーターが必要です。

3. ネットワークと方法

3.1 入力表現

タイムアライメント後、現在のフレームと過去 2 フレーム (合計 3 フレーム) を使用して BEV マップに変換されます。
解像度 0.1m、x (0,48)、y (-16,16)、各フレーム点群は 480*320 BEV マップに変換されます。
深度 (範囲) 表現に基づいて、距離情報が欠落し、遠方の車両が深度マップで表示されなくなります。さらに、深度マップの表現にはオクルージョンの問題がありますが、BEV はこれを克服する予定です。BEV のもう 1 つの利点は、3D 点群の再構築であり、ピクセル インデックスの構築が簡単で便利です。下流計画などのモジュールも BEV スペースに基づいており、相互変換を削減します。

3.2 データの拡張

一般的に使用されるデータ拡張方法は、アップサンプリングまたはグラウンド トゥルース GT 拡張方法です。

方法:
移動オブジェクトのないフレームの場合、車両カテゴリに属する​​すべてのポイント セットを収集します。一様なランダム値サンプルを使用し连续4帧、静的点セットを x 軸と y 軸に沿って移動します。各フレームの x 方向では、増分移動量によってモーション コンセプトが生成されます。これらのポイントを移動車両ポイントとしてマークし、現在のフレーム内の移動ポイントとマージします。

3.3 ネットワーク構造

BEVDetNetを使用することで、BEV に代表されるネットワークはキーポイントバイナリ分類ヘッドを持ち、マルチエンコーディングとジョイントデコーディングの構造を新たに確立します。これは図 1 でエンコードされています。
コーディングここに画像の説明を挿入

特徴抽出モジュールは と呼ばれDownsampling Blocks(DB)、5 5、3 3 コンボリューション カーネルを使用して、さまざまなスケールの特徴を取得します。Upsampling Blocks(UB)、入力の空間解像度を高め、同じ次元の出力を保証するために使用されます。連続する 3 つのフレームの入力データを処理し独立的编码、それらを 3 つの DB モジュールに送信し、さまざまなステージの結果を処理します并列和基于乘法的融合联合编码3 つのストリームの相互作用を取得し、オブジェクトの相対変位フィーチャを取得するために、チャネルベースの乗算演算子を使用してフィーチャ内の接続を形成します。联合解码複雑な特徴を効率的に計算し、動き情報を取得するための 4 つの DB モジュールがあります。

残差層は動き補償後のフレーム間差分を計算し、2 つのフレーム間の動的部分と静的部分から 1 つの を生成します视差图静止物体は広い領域で重なり、この領域は大きな残差値が得られますが、移動物体の部分は基本的に重なり合わず、この位置の残差誤差は0です。

4. 結果

データセット:
SemanticKITTI

  • トレーニング セット: 00-07 + 09-10 (フレームあたり少なくとも 20 モーション ポイント)
  • 検証セット: 08

損失:
加重クロスエントロピー

評価基準
イオウ

アブレーション実験結果
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_36354875/article/details/126585134