論文の読書: 3D セマンティック セグメンテーションのためのピラミッド フュージョン ネットワークを使用したディープ センサー フュージョン

0. 概要

要約: 堅牢な環境認識は自動運転車にとって大きな課題であるため、カメラ、LiDAR、レーダーなどのさまざまなセンサーが重要になります。3D セマンティック セグメンテーションは、記録されたセンサー データを理解するプロセスにおいて重要な役割を果たします。したがって、この論文では、交通シーンの 3D セマンティック セグメンテーションを改善するために、ピラミッド ベースの LIDAR とカメラのディープ フュージョン アーキテクチャを提案します。個別のセンサー バックボーンは、カメラ画像と LIDAR 点群から特徴マップを抽出します。新しいピラミッド融合バックボーン ネットワークは、さまざまなスケールのこれらの特徴マップを融合し、マルチモーダルな特徴を特徴ピラミッドに結合して、貴重なマルチモーダル、マルチスケールの特徴を計算します。ピラミッド フュージョン ヘッドは、これらのピラミッド機能を集約し、融合後のステップでさらに洗練して、センサー バックボーンの最終的な機能を組み合わせます。この方法は 2 つの困難な屋外データセットで評価され、さまざまな融合戦略と設定が調査されます。これは、最近のレンジビューベースの LIDAR 手法だけでなく、これまでに提案されたすべての融合戦略やアーキテクチャよりも優れた性能を発揮します。

1 はじめに

        意味論的なシーンの理解は、多くのロボット タスクにおいて重要な役割を果たします。複雑な 3D シーンを完全に理解するには、さまざまなセンサー モダリティを開発して組み合わせることが重要です。カメラと LIDAR センサーの融合は、有望な補完的な組み合わせです。カメラは高解像度の画像を提供しますが、幾何学的情報は提供しません。一方、LIDAR 点群は、貴重ではあるがまばらな 3D 幾何学的情報を提供します。この情報は、距離が増加するにつれてさらにまばらになります。したがって、カメラ画像と 3D 点群の融合には大きな可能性があります。

        3D シーンの理解の重要な側面は、個々の 3D ポイントにクラス ラベルを割り当てる 3D セマンティック セグメンテーションです。深度情報を使用して画像のセマンティック セグメンテーションを改善する方法は数多くありますが、カメラ情報を使用して 3D セマンティック セグメンテーションを改善することに関する研究はほとんどありません。一般に、畳み込みニューラル ネットワーク (CNN) を使用するには、投影ベース[1]、[2] または点ベース[3]、[4] など、さまざまな点群表現が提案されています。投影ベースの表現として有望なのは、カメラ画像との直感的な融合を可能にする球面投影ベースの距離ビューです。

        一般的に使用される戦略 [5] は、生の入力データの融合 (初期融合)、特徴マップの融合 (ディープ融合)、および予測の融合 (後期融合)です。初期および後期融合は 1 つのスケールで 1 回のみ融合しますが、深層融合では複数の場所とスケールで融合する可能性が提供されます。画像処理では、特徴ピラミッドはマルチスケール コンテンツを識別するための一般的な方法です。したがって、これらはマルチスケールの深い特徴の融合の良い出発点となります。

        これらの発見に基づいて、図 1 に示すように、LiDAR とカメラのマルチスケール フュージョンを使用して 3D セマンティック セグメンテーションを改善する新しいピラミッドベースのディープ フュージョン手法を提案します新しいピラミッド フュージョン バックボーンを使用して、距離視点空間の LIDAR フィーチャと、フィーチャ ピラミッド内のさまざまなスケールで変換されたカメラ フィーチャを融合します。提案されたピラミッド融合ヘッドは、マルチモーダル、マルチスケールの特徴を集約し、融合の後の段階でそれらを洗練します。ピラミッド融合ネットワーク全体により、結果が大幅に向上します。要約すると、私たちの貢献は次のとおりです。

  • 交換可能なセンサー バックボーンと新しいピラミッド型フュージョン ネットワーク構成されるモジュール式マルチスケール ディープ フュージョン アーキテクチャ
  • LiDAR およびカメラのピラミッドフュージョン バックボーン視野範囲におけるマルチスケール機能の融合
  • マルチモデル、マルチスケールのピラミッド フィーチャを集約および調整するためのピラミッド フュージョン ヘッド。

2.関連作品

A. 2D セマンティック セグメンテーション

        Fully Convolutional Networks (FCN) [6] は、セマンティック セグメンテーション タスクの先駆的なネットワーク アーキテクチャです。完全畳み込みアーキテクチャは、CNN の完全に接続された層を畳み込みで置き換えるため、エンドツーエンドのピクセル レベルの予測用に設計されています。オリジナルの FCN はシーンのグローバル コンテキストをキャプチャすることに努めている [7] ため、詳細を維持しながらグローバル コンテキストを収集する、マルチスケール コンテキスト集約のためのピラミッド型機能に基づいた新しいアーキテクチャが登場しました [7] ~ [9]。

        PSPNet [7] は、最後の特徴マップのさまざまなスケールを組み合わせたピラミッド プーリング モジュール (PPM) を適用します。したがって、ネットワークはシーンのコンテキストと詳細をキャプチャできます。HRNetV2 [9] のようなさらなるアプローチは、特徴抽出バックボーンの既存のピラミッド特徴を利用します。パノラマ画像のセグメンテーションの関連タスクについては、EfficientPS [8] は、双方向機能ピラミッド ネットワーク (FPN) [10] を適用することで、異なるスケールのボトムアップ機能とトップダウン機能を組み合わせています。次に、セマンティック ヘッドを使用して、セマンティック セグメンテーションのために大規模な特徴と小規模な特徴をキャプチャします。

B. 3D セマンティック セグメンテーション

        規則的なグリッドに配置された画像データに CNN を適用するのとは対照的に、CNN を 3D 点群に直接適用することはできません。したがって、いくつかの表現と特殊なアーキテクチャが開発されました。

        非構造化生データを直接処理する先駆的なアプローチは PointNet [3] で、共有多層パーセプトロンを適用して各入力ポイントの特徴を抽出します。特徴は入力順列に対して不変である必要があるため、対称操作を使用して集約されます。その後継である PointNet++ [4] は、ポイントの再帰的な階層グループ化を通じてフィーチャ間の空間関係を利用します。

        生の点群を処理しない方法では、点群が 2D または 3D メッシュなどの離散空間に変換されます。球面投影に基づく 2D グリッドの効率的で有望な表現は、いわゆる距離ビューです。SqueezeSeg [12] は、この表現を道路オブジェクトのセグメンテーションに利用する最初の方法の 1 つです。最新のアプローチは SqueezeSegV3 [13] で、空間適応畳み込みを使用してビューごとに異なる特徴分布に対抗します。RangeNet++ [1] は、球面投影によってもたらされるいくつかの欠点を克服するために、効率的な knn ベースの後処理ステップを提案しています。以前の方法と比較して、SalsaNext [2] は、ピクセル シャッフリング層やデコード時の Lov´asz-Softmax-Loss [14] の使用など、ネットワーク アーキテクチャのさまざまな側面を改善しています。[15] では、畳み込みの別の適応が使用されています。この方法では、軽量の高調波密畳み込みを使用して距離マップをリアルタイムで処理し、良好な結果を達成します。さらに、複数の表現を利用するハイブリッド手法が登場しました [16]、[17]。

C. 3D マルチセンサー フュージョン

        マルチセンサー フュージョンは、コンピューター ビジョンのさまざまなタスクにおいて引き続き注目を集めています。これは主に、カメラと LIDAR を組み合わせた 3D ターゲット検出の問題を解決します。密な予測に必要な密な特徴融合 (セマンティック セグメンテーションなど) については、これまでのところ [18] ~ [21] の少数の研究しかありません。

        [18] では、高密度関心領域ベースの融合が、3D オブジェクト検出を含むさまざまなタスクに適用されます。別の 3D オブジェクト検出方法 [19] は、高密度カメラと LIDAR 鳥瞰図の特徴を組み合わせた連続畳み込みを適用します。連続フュージョン レイヤーは、マルチスケールの画像フィーチャをネットワーク内の異なるスケールの LIDAR フィーチャ マップと融合します。

        LaserNet++ [20] に基づくオブジェクト検出およびセマンティック セグメンテーション アルゴリズムが提案されています。このアルゴリズムは、まず残差ネットワークを通じてカメラ画像を処理します。プロジェクションマッピングを適用することで、カメラの機能が遠景に変換されます。ステッチされた特徴マップはその後、LaserNet [22] に供給されます。Fusion3DSeg [21] は、カメラと LIDAR の機能に対して反復的な融合戦略を採用しています。Fusion3DSeg では、カメラと距離ビューの機能は、反復的なマルチスケール機能融合のための反復的な深い集約戦略を採用しています。最後の特徴は、通常の knn ベースの後処理 [1] の代わりに、3D ブランチからのポイントベースの特徴とさらに結合されます。

        [18] と比較すると、提案された [19] はモジュール式であり、画像特徴が LiDAR バックボーンにフィードバックされないため、各センサー バックボーンは互いに独立しています。さらに、新しい双方向ピラミッド融合戦略が提案されています。反対側の LaserNet++ [22] は 1 回だけ融合し、マルチスケール フュージョンを適用しません。Fusion3DSeg [21] は最も関連性の高い研究であり、ボトムアップおよびトップダウンの並列ピラミッド戦略とはまったく異なる反復融合戦略を採用しています。

3. ピラミッドフュージョンネットワークに基づく 3D セマンティックセグメンテーション

        この論文で提案するディープ センサー フュージョン アプローチは、次のセクションで説明する4 つの主要なコンポーネントで構成されます。まず、個々のセンサー データから特徴を計算するLIDAR とカメラのバックボーン、次に、異なるスケールの 2 つのモダリティからのエンコーダーの特徴をトップダウンおよびボトムアップの方法で融合する新しいピラミッド フュージョン バックボーンです。ピラミッド フュージョン ヘッドはこれらの機能を組み合わせ、フュージョン ポスト内の 2 つのセンサー バックボーン デコーダーの最終出力と融合します。全体的なアーキテクチャを図 2a に示します。このメソッドのモジュール性とトレーニング戦略の選択により、他の目的に影響を与えることなく、カメラが利用できない場合の処理​​、バックボーンまたはセンサーの切り替え、カメラと LiDAR のセマンティック セグメンテーションの共同予測が可能になります。したがって、両方のバックボーンはセンサー データで事前トレーニングされ、フュージョン アーキテクチャ全体をトレーニングしている間フリーズされます。したがって、バックボーンは、カメラが利用できない場合や追加のカメラ セグメンテーションの代替として単一センサーのセマンティクスを予測することができます。 

 A. Lidar バックボーン

        LIDAR バックボーンは、距離ビューで表される [21]、[23] の球面投影に基づいて入力点群のフィーチャを計算します。そのアーキテクチャは EfficientPS [8] によって駆動され、範囲ビューに適応されています。距離画像の解像度はカメラ画像の解像度よりも低いため、特に垂直方向では、最初の 2 段階のダウンサンプリング ステップは水平方向でのみ実行されますさらに、EfficientNet-B1 [24] をエンコーダとして使用し、最後の 3 つのステージを削除します。したがって、EfficientNet-B1 が使用する機能チャネルの数が EfficientNet-B5 よりも少ないため、双方向 FPN のステージは 4 つではなく 3 つだけになり、出力チャネルは 128 に減ります。図 2a に示すように、第 3 段階、第 4 段階、および第 6 段階の計算された特徴マップは、カメラ特徴との融合のためにピラミッド フュージョン バックボーンに供給されます。FPN ステージの削除により、対応する DPC モジュール [8] もセマンティック ヘッダーから削除されます。ヘッド 出力機能の後期融合を提供するピラミッド フュージョン ヘッド。

B. カメラバックボーン

        私たちが調査した最初のバックボーンは依然として EfficientPS でしたが、エンコーダとしてオリジナルの Efficient-B5 を使用していました。LIDAR バックボーンと比較すると、EfficientPS はカメラ バックボーンとしての使用にほとんど変更がありません。同様に、3 番目、4 番目、および 6 番目のステージの出力は、ピラミッド フュージョン バックボーンに供給されます。ピラミッド融合ヘッドの融合後のステップでは、セマンティック ヘッドの出力が使用されます。

        さらに、基礎となる ResNet101 [25] を使用する PSPNet が別のバックボーンとして選択されます。ResNet101 の層 conv3_4、conv4_23、および conv5_3 からの 3 つの特徴マップが、ピラミッド フュージョン バックボーンへの入力として提供されます。PPM の出力は後の融合ステップに供給されます。

C. ピラミッドフュージョンネットワーク

        フュージョン アーキテクチャの重要な部分は、LIDAR とカメラの機能を融合するピラミッド フュージョン ネットワークです。融合モジュールはフィーチャを共通空間に変換し、その後 2 つのモダリティを組み合わせる融合ステップが続きます。図 2b に示すように、ピラミッド融合バックボーンは、これらのモジュールをさまざまなスケールおよび集合体で適用し、結果として得られる融合機能をトップダウンおよびボトムアップ方式で組み合わせます。これらのマルチモーダル、マルチスケールの機能は、後の融合段階でピラミッド フュージョン ヘッドによって結合され、さらに洗練されます。

特徴変換

LIDARとカメラの融合を実現するには、共有スペースが必要です。したがって、カメラ画像から遠景空間への特徴投影が必要です。さらに、投影はさまざまな特徴マップ スケールに適している必要があります。この問題を解決するために、Fusion3DSeg のスケーラブルなプロジェクション[21]、[26]を使用します一般的な考え方は、点群の 3D 点に基づいて、カメラ画像からレンジ ビュー座標へのマッピングを作成することです。各ポイントはカメラ画像だけでなく距離ビューにも投影でき、カメラ画像と距離ビューの座標の間に目的のリンクを作成できます。

フュージョンモジュール

        図 3 に示すように、特徴の変換と融合は融合モジュールを通じて実行されます。まず、融合がこの領域でのみ可能であるため、2 つのセンサーの特徴マップが重複する視野にトリミングされます。カメラの特徴空間は、上記の特徴変換によってレンジビュー空間に変換され、その後、反転残差ブロック (IRB) [8] によって実装される学習された特徴投影によって、LIDAR がカメラの特徴空間と位置合わせされます。LIDAR は、その特徴マップ解像度がカメラの解像度より小さいため、双線形アップサンプリングによって特徴づけられ、2 つのセンサーからの異なる特徴を融合できます。レンジビュー空間に配置された LiDAR とカメラの特徴が連結され、その後に学習融合用の 1 つ以上の残差ブロックが続きます。このモジュールは、ブロックの種類と数が異なるさまざまな融合戦略を適用することを目的としています。我々は、ボトルネック残差ブロック(BRB)[27]に基づくボトルネック融合戦略とirbベースの逆残差融合戦略を研究します。

 ピラミッドフュージョンバックボーン

        この融合モジュールは双方向 FPN に統合されており、異なるスケールで 2 つのモダリティを融合し、ボトムアップおよびトップダウンの集約を通じてマルチモーダル、マルチスケールの特徴を計算します。LIDAR バックボーンから、図 2b に示す 3 つの異なるスケールの特徴マップがそれぞれの融合モジュールに渡されます。次に、特徴マップはターゲットの出力解像度にアップサンプリングされ、3 つの異なるスケールのカメラ バックボーン特徴マップと融合されます。結果として得られる 3 つの特徴マップは、マルチスケール特徴を計算するために、ボトムアップおよびトップダウンの特徴ピラミッドの形式で集約されます。このようにして、さまざまなスケールでのマルチモーダル フィーチャの集約は、一方では詳細とより多くのコンテキストの組み込みから始まり、他方ではコンテキストとより多くの詳細の追加から始まります。最後に、2 つのコーン出力が結合され、その結果得られるマルチモーダル、マルチスケールのコーン フィーチャがピラミッド フュージョン ヘッドに渡されます。

ピラミッドフュージョンヘッド

フュージョン ヘッドの最初のステップは、LiDAR バックボーンのセマンティック ヘッドに似ており、双方向 FPN (この場合はピラミッド フュージョン バックボーン) からの 3 つの特徴マップを結合します。後者は両方のエンコーダーからの特徴を融合し、追加の融合後のステップで LIDAR とカメラ デコーダーからの最終特徴を融合して、ピラミッド フュージョン ネットワークの特徴をさらに洗練します。したがって、図 2a に示すように、カメラと LIDAR バックボーンの最後の特徴マップは、2 つの追加の融合モジュールを介してピラミッド フュージョン バックボーンの集約された特徴と融合されます。

最終的な特徴マップは 1x1 畳み込みに入力され、その後、距離ビュー入力のピクセル レベルの分類のためのソフトマックス アクティベーション関数が続きます。knn ベースの後処理 [1] を 3D セマンティック セグメンテーションに適用します。

4. 評価

以下の評価は、SemanticKITTI [28] と PandaSet [29] という 2 つの挑戦的な大規模屋外データセットに対して実行されます。この場合、2 つのセンサーの重複する視野にわたる平均交差 (mIoU) が次のように報告されます。他の最先端の方法でそれを実現します。

SemanticKITTI は、  KITTI Vision Benchmark [30] オドメトリ タスクからの 360° LIDAR スキャンの Velodyne-HDL64E に基づくポイント単位のアノテーション データセットです。これには、22 の注釈付きシーケンスと 19 のクラスの約 43,000 のスキャンが含まれています。これらのシーケンスのうち、公開されているグラウンド トゥルースがあるのは最初の 11 個のみです。その結果をFormal Validation Sequence08で報告します。オドメトリ タスク用の意味的にラベル付けされた画像は存在しないため、カメラ バックボーンはセマンティック セグメンテーション チャレンジ [31] からのデータを使用して事前トレーニングされます。これには 200 個の注釈付き画像が含まれており、0 ~ 149 をトレーニングに使用し、残りを検証に使用します。

PandaSet は、 Pandar64 からの 6080 個のポイントごとの注釈付き LIDAR スキャンと、フロント センター カメラからの対応するカメラ画像を提供します。他の方法 [23] と比較できるように、ラベル付きクラスを 14 クラスのサブセットにグループ化し、[23] で提案されたデータ分割に従います。

A. 実装の詳細

このメソッドは、最大 4 つの Tesla V100 GPU での分散データ並列トレーニングを使用して、混合精度モードでトレーニングされます。トレーニング中、ネットワークは、重み wc = log(nc/n) の重み付きクロスエントロピー損失を使用して最適化されます。ここで、n はポイントまたはピクセルの合計数、および各クラス c の nc の値を定義します。さらに、学習率は、ポリ学習率スケジューラを使用して 1 - (i/imax)0.9 だけ減衰されます。ここで、i は反復を示します。特に明記されていない限り、重み減衰 0.0001 の SGD オプティマイザーが使用されました。

Lidar バックボーンの 2 つのデータセットのバッチ サイズは 16、SemanticKITTI の初期学習率は 0.07、PandaSet の初期学習率は 0.001 です。後者は Adam によって最適化されます。過学習を減らすために、確率 0.5 のランダムな水平反転とランダムなトリミング (トリミング サイズ 64 × 1024) が 2 つのデータセットにそれぞれ適用されました。

カメラ バックボーンどちらのネットワークも都市景観 [32] からの事前トレーニングされた重みを使用し、さらに 4 つのバッチでトレーニングされます。EfficientPS の場合、初期学習率 0.0007 が適用されますが、PSPNet の場合は 0.0001 が使用されます。確率 0.5 のランダムな水平反転とガウスぼかし、サイズ 300×600 のランダムなクロップと [−5◦, 5◦] から均一に描画されたランダムな回転。特に明記されていない場合、EfficientPS はカメラのバックボーンとして使用されます。

Deep Fusion は、 2 つのバックボーンを事前トレーニングしてフリーズした後、バッチ サイズ 16、学習率 0.07 で SemanticKITTI でフュージョン メソッドをトレーニングします。PandaSet では、バッチ サイズは 8 に設定され、初期学習率は 0.001 で、Adam オプティマイザーが使用されます。データ拡張の場合、ランダムな水平反転の確率は 0.5 です。遠景で重複する視野の解像度はそれぞれ 45×485 と 61×266 です。センサーのサイズが小さいため、重複する部分にはランダムなトリミングは使用されません。意味的にラベル付けされたカメラ画像は PandaSet に存在しないため、カメラ バックボーンは対応する実験のためにフリーズされません。事前トレーニングを考慮するために、EfficientPS の学習率を 0.0001 に、PSPNet の学習率を 0.001 に設定しました。

B. ピラミッドフュージョンネットワーク

        私たちが評価する最初の実験では、提案された方法とそのコンポーネントが SemanticKITTI に及ぼす影響を調査します。結果を表1に示す。2 つの重要なベースラインは、単一センサー ベースラインとしての LiDAR バックボーンと、融合ベースラインとしての融合後戦略であり、2 つのバックボーンの最終的な特徴マップが提案された融合モジュールと融合されます。融合バックボーンである PFB を追加すると、結果が大幅に改善され、マルチモーダル機能の価値が強調され、さらに、後期融合を上回るマルチスケール融合戦略の利点が強調されます。これまでのところ、LIDAR バックボーンのセマンティック ヘッドは、ピラミッド フィーチャを集約するためのピラミッド ヘッドとして使用されています。追加の後期融合ステップを含めて当社の融合ヘッド PFH を導入すると、結果がさらに向上します。全体として、PyFu は 2 つのベースラインをそれぞれ 3.9% および 2.7% 上回り、推論時間は 48 ミリ秒です。次のステップは、融合モジュール内のさまざまな融合戦略を研究することです。その結果を表 II に示します。まず、ピラミッド型バックボーン PFB に対するさまざまな戦略の影響が評価されます。BRB+BB を使用したボトルネック融合戦略 [27] は、irb に依存した逆融合戦略よりも優れています。これは、ピラミッド フュージョン ネットワーク全体にも当てはまります。

        さまざまなカメラ バックボーンを調査するために、PandaSet で別の実験が行われます。前述したように、意味的にラベル付けされた画像データが存在しないため、カメラ バックボーンは PandaSet 上の全体的なアーキテクチャでトレーニングされます。この場合、LIDAR とカメラの共同セグメンテーションは可能ではありませんが、セマンティック ラベリングなしで画像に対して私たちの方法をトレーニングすることもできることを示しています。表 3 は、カメラ バックボーンとしての EfficientPS が PSPNet を大幅に上回り、ベースラインに対して +8.8% という大幅な改善を達成していることを示しています。それにもかかわらず、LiDAR ベースラインはどちらの場合もそれを大幅に上回っており、提案されたアーキテクチャがさまざまなカメラ バックボーンで適切に動作することが確認されています。EfficientPS には、必要なメモリが少なくて済むため、カメラ画像をネイティブ解像度で処理できるというもう 1 つの利点もあります。そうしないと、係数 2 による最初のダウンサンプリングが実行され、パフォーマンスが低下します。SemanticKITTI では、PSPNet は mIoU 値が 61.9% でバックボーン ネットワークとして最適に機能します。後者と SemanticKITTI の場合、LF ステップでは何の改善もありません。最後に、図 4 は、3 つの異なるシナリオにおけるこれら 2 つのデータセットの定性的結果を示しています。

 C. 定量的結果

        次のステップでは、カメラと LIDAR の融合の利点を評価するために、私たちの方法を距離表示に基づく最先端の方法とさらに比較します。SemanticKITTI の結果を表 4 に示します。全体としてすべての LIDAR メソッドを上回っており、ほとんどの個別クラスでもすべての LIDAR メソッドを上回っています。主な改善は部分的に融合によるものであり、すでに優れたベースラインによるものではないことは言及する価値があります。これは、3D セマンティック セグメンテーションの改善におけるカメラ機能の価値を改めて強調しています。次に、私たちの融合アーキテクチャと戦略を他の深層融合手法と比較して検討します。表 4 を参照してください。ピラミッド融合戦略は他のすべての融合手法よりも優れており、PyFu と Fusion3DSeg [21] の優れたパフォーマンスは、マルチスケール センサー フュージョンの利点を強調しています。後者と比較して、特にオートバイ、その他の車両、フェンスでは大幅に優れた結果が得られます。[21] では、kNN ベースの後処理を使用して重複する視野について他の方法が評価されています。Rzani らによる [15] は、コードが利用できなかったため計算できませんでした。

        最後に、PyFu を PandaSet 上の他の融合メソッドと比較します。繰り返しになりますが、私たちの方法は他の方法よりもはるかに優れた最高のパフォーマンスを発揮します。個々のカテゴリ、特にトラック (+22.4%)、その他の車両 (+10.9%)、および道路障害物 (+9.1%) では、PyFu が大幅に優れたパフォーマンスを示しています。このような場合、当社の LIDAR バックボーンは、Fusion3DSeg の LIDAR バックボーンよりも優れたパフォーマンスを発揮します。ただし、提案された融合戦略がすでに強力なクラスをさらに改善できることを示しています。車、人物、建物、および背景のクラスについては、Fusion3DSeg の LIDAR バックボーンのパフォーマンスが向上しているにもかかわらず、私たちの方法は最高の結果を達成します。私たちのアプローチがクラスにとって最高の結果を達成できない場合は、別のバックボーンが私たちのアプローチよりもうまく機能するでしょう。ただし、ピラミッド融合戦略では分散が大幅に減少します。全体として、これは私たちの融合戦略とアーキテクチャの大きな可能性を示しています。

        

5。結論

        この研究では、LiDAR とカメラの機能を複数のスケールで融合して 3D セマンティック セグメンテーションを改善する、新しいピラミッドベースの融合アーキテクチャ PyFu を提案します。ピラミッド フュージョン バックボーン ネットワークは、トップダウンおよびボトムアップ戦略を通じてマルチスケールの機能を融合し、マルチモーダル情報の利用を強化します。柔軟な融合モジュールと交換可能な戦略を利用します。ピラミッド融合ヘッドはピラミッド状のフィーチャを集約し、後の融合ステップでそれらを洗練します。2 つの困難な屋外データセットにおいて、PyFu は他の LIDAR レンジビューおよびフュージョン手法よりも優れたパフォーマンスを発揮します。この結果は、一般にセンサーフュージョンの重要性、特に提案されたフュージョンアーキテクチャの利点を強調しています。また、提案されたピラミッド構造がセンサーフュージョンを最大限に活用していることも強調しています。総合すると、この方法は、カメラ画像を使用した 3D 点群のセマンティック セグメンテーションを改善する大きな可能性を秘めています。

自分自身を要約してください:

1. アイデアは非常にシンプルで、多層機能の融合や 3 層ピラミッドは非常に成熟したアイデアだと感じますが、元のネットワークをどのように修正してトレーニングするのでしょうか?

2. 前方と後方を追加する融合モジュール、これが改善の源ですか? なぜこれほどうまく機能するのでしょうか?

3. データの配置部分が少しわかりにくく、データの次元が異なり、画像が理解できない

おすすめ

転載: blog.csdn.net/qq_53086461/article/details/130464942