論文の閲覧: CPGNet: リアルタイム LiDAR セマンティック セグメンテーションのためのカスケード ポイントグリッド フュージョン ネットワーク

カスケードポイントメッシュ融合ネットワークに基づくリアルタイム LiDAR セマンティックセグメンテーション

0 概要

        高度な自動運転に不可欠な LiDAR セマンティック セグメンテーションは、モバイル プラットフォームに正確、高速かつ簡単に導入できる必要があります。以前のポイントベースまたはスパースボクセルベースの方法は、時間のかかる近傍検索やスパース 3D 畳み込みのため、リアルタイム アプリケーションとは程遠いものでした。レンジビューやマルチビュー フュージョンなどの最近の2D 投影ベースの手法はリアルタイムで実行できますが、 2D 投影中の情報損失により精度が低くなります。さらに、パフォーマンスを向上させるために、従来の方法では通常、テスト時間拡張 (TTA) が採用されており、推論プロセスがさらに遅くなります。より良い速度と精度のトレードオフを達成するために、私たちはカスケード ポイント グリッド フュージョン ネットワーク (CPGNet) を提案します。これは主に次の 2 つの技術を使用して有効性と効率を確保します。 1) 新しいポイント グリッド (ポイント グリッド PG) ) 融合ブロックは主に 2D 投影グリッド上の意味特徴を抽出して効率を向上させますが、同時に 3D 点上の 2D および 3D 特徴を抽出して情報損失を削減します; 2) 提案された変換一貫性損失により、TTA 間のギャップによるシングルショット モデル推論が縮小されます。SemanticKITTI および nuScenes ベンチマークの実験では、アンサンブル モデルや TTA を使用しない CPGNet は、最先端の RPVNet と同等でありながら、4.7 倍高速に実行されることが示されています。

1 はじめに

        光検出および測距 (LiDAR) センサーは、自動運転やロボット工学で広く使用されています。キャプチャされた 3D 点群データは、周囲のシーンに関する豊富な情報を提供します。これらの 3D LIDAR セマンティック セグメンテーションは、自動車、歩行者、自転車、道路、建物などの点群にセマンティック ラベルを割り当てるため、送信の精度と安全性に直接関係します。ここ数年、LiDAR 3D 点群を処理するためにさまざまな深層学習モデルが提案されてきましたが、これらの方法では、特にモバイル プラットフォーム (車やロボットなど) での精度と速度の両方を保証できません。

        既存の LiDAR ベースの 3D 点群手法は、ポイントベースの手法、スパースボクセルベースの手法、および 2D 投影ベースの手法の 3 つのカテゴリに分類できます。

        ポイントベースのメソッドには、PointNet [1]、PointNet++ [2]、PointCNN [3]、RandLA-Net [4] などが含まれます。これらは、情報を失うことなく、生の順序付けられていない 3D 点群に直接適用されます。ただし、これらの方法では通常、時間のかかる操作、つまり最遠点サンプリング (FPS) を使用した均一ダウンサンプリングと、k 近傍 (kNN) またはボール クエリを使用したローカル近傍検索が使用されます。

        LiDAR 3D ポイントは非常にまばらであるため、スパース ボクセル ベースの方法では、3D ポイントをボクセルに量子化し、これらのスパース ボクセルにのみ 3D 畳み込み演算を適用します。これらの方法では量子化による情報損失が避けられませんが、最先端のパフォーマンスを実現します。ただし、これらの方法は計算コストが高く、リアルタイムで実行できません。

        2D 投影ベースの手法は、3D 点群から投影された 2D メッシュ フィーチャ マップに確立された 2D CNN を適用します。Fully Convolutional Networks (FCN) [5] とそのバリアント [6]、[7]、[8]、[9]、[10] に触発されたこれらの 2D 投影ベースの手法は、通常、鳥瞰図を考慮します [11] ] またはレンジ ビュー [12]。これは、いくつかの効果的な深層学習推論フレームワーク (TensorRT [13] など) で簡単に設計および展開できます。各 LiDAR スキャンにはほぼ 15 ミリ秒かかる場合があります。ただし、これらの方法では、2D 投影情報が大幅に失われるため、精度が低くなります。以下の RangeNet++ [14] は後処理として kNN を使用しようとしていますが、MPF [15] は鳥瞰図と範囲図を組み合わせていますが、依然としてパフォーマンスは悪くなります。

        この目的を達成するために、リアルタイムで正確な LIDAR セマンティック セグメンテーションを実現する CPGNet を提案します。CPGNet が提案する PG 融合ブロックは、まず鳥瞰図と距離ビューの 2D グリッド上に意味特徴を投影および抽出し、次にこれらの特徴を 3D 点で転送および融合します見てわかるように、PG fusion ブロックは、ポイントベースの方法 (完全な情報) の利点2D 投影ベースの方法の高速性を組み合わせています。CPGNet PG 融合ブロックは、ポイント フィーチャをさらに強化するために繰り返し適用されます。さらに、元の点群と拡張点群の間のテスト時間拡張 (TTA) 遷移損失にヒントを得て、一貫した結果を保証するプロトコルが提案されています。最後に、図 1 に示すように、CPGNet をオープンソース メソッドと比較します。CPGNet は、PyTorch FP32 NVIDIA RTX 2080 ti GPU で実行した場合、SemanticKITTI [16] 検証セットで最高の mIoU (65.9) を達成しました。 43ミリ秒。貢献は次のようにリストされます。

  • · LiDAR セマンティック セグメンテーション用に、正確、高速、導入が簡単な CPGNet を提案します。これには、ポイント、鳥瞰図、および範囲ビュー機能のカスケード フレームワークが組み込まれています。
  • 私たちは、テスト時拡張 (TTA) にヒントを得た変換一貫性損失を提案し、単一の推論だけでより高いパフォーマンスを実現します。
  • 提案された CPGNet は、SemanticKITTI および nuScenes ベンチマークで最高の速度と精度のトレードオフを達成します。

2 関連作品

        密なグリッド構造を持つ 2D 画像とは異なり、点群は無秩序で、まばらで、構造化されていないため、深層学習操作 (畳み込みなど) を適用することが困難になります。これまでのアプローチでは、3 つの方法でこの問題に対処しようと試みてきました。

A: ポイントベースの方法

        ポイントベースのメソッドは、元のポイントに直接作用します。PointNet [1] は、各ポイントで共有多層パーセプトロン (MLP) を適用し、ポイント全体で最大プーリングを適用して、さらなるセグメンテーション タスクのためのポイント特徴を取得します。ただし、PointNet は、コンテキスト抽出がローカルに欠如している場合、より複雑なシーンを実行します。次の研究 [2]、[3] では、2D 畳み込みをシミュレートするための球面クエリと χ-Conv が提案されており、屋内シーンで優れた結果が得られます。ただし、LIDAR 点群コンピューティングとメモリ コストには適用できません。ネットワーク推論を高速化するために、RandLA-Net [4] はランダム サンプリングと局所特徴の集約を採用していますが、ランダム サンプリングのため精度が低いという問題があります。KPConv [17] は、局所構造を抽出するための新しい空間畳み込みベースの方法を提案し、KPRNet [18] は KPConv と ResNext [19] を組み合わせて、ポイントツーポイント方法で最良の結果を達成します。積分法は情報を削除せずに元の点に直接適用されますが、局所構造の抽出が非効率であるため、自動運転ではあまり研究されていません。

B. スパースボクセルアプローチ

        畳み込み演算を容易にするため、スパースボクセルを構築します。SPVNAS [21] は [20] で Neural Architecture Search (NAS) を導入し、より低い計算コストでより良い結果を達成しました。最近では、スパースボクセルベースの方法の変形が提案されています [22]、[23]、[24]。Cylinder3D [22] は、円筒座標系の 3D 点を量子化し、その効率を実証します。AF2S3Net [23] は、ローカル構造とグローバル構造を同時に効率的に抽出するために、注意特徴融合モジュール (AF2M) と適応特徴選択モジュール (AFSM) を提案しています。RPVNet [24] は、レンジ ビュー、ポイント、スパース ボクセルの特徴を 1 つのフレームに融合して量子化エラーを軽減し、SemanticKITTI および nuScenes ベンチマークで最良の結果を達成します。これらの方法は LiDAR セマンティック セグメンテーション ベンチマークで優勢ですが、展開に困難があり、モバイル プラットフォーム上でリアルタイムで実行できません。

C. 2D 投影ベースの方法

        最近では、2D 投影ベースの手法が高速かつ簡単に導入できるため、より注目を集めています。これらの方法では、2D FCN を利用して 3D ポイントを 2D グリッドに投影し、範囲には主にビューとマルチビュー フュージョンが含まれます。3D ポイントから 2D 球面メッシュまで、さまざまなバリエーションがあるプロジェクトをチェックしてください。RangeNet++ [14] は、加速された情報後処理を提案しています。これは、以下の範囲ベースの方法に不可欠なモジュールです。SqueezeSegV3 [25] は、空間適応畳み込みの優位性を示しています。SalsaNext [26] は、SalsaNet [27] に基づいて新しいエンコーダ/デコーダ ネットワークを設計し、和集合に対する平均交差 (mIoU) メトリクスを直接最適化できる値のリスト「asz-Softmax loss [28]」を採用しています。最近、Lite-HDSeg [29] は、最良の結果を達成するために、高調波密度の高い隆起と範囲ベースのアプローチを提案しました。単一ビューまたは 2D グリッドの 2D 投影情報の損失は避けられないため、次の多視点融合プロジェクト 3D は 2 つ以上の異なるタイプの 2D グリッドに分割されます。MPF [15] と AMVNet [30] は、鳥瞰図と範囲ビューを組み合わせています。このアプローチとは異なり、それらは各ビューで意味的に独立して動作し、2 つのビューの後期融合モジュールのセグメンテーション結果を融合します。

3 提案手法

        LiDAR セマンティック セグメンテーションを正確かつ迅速に実行するには、セマンティック特徴を効率的に抽出するだけでなく、点群情報の整合性を維持する必要があります。したがって、CPGNet が点の特徴を段階的に抽出するための Point Grid (PG) 融合ブロックを提案します。図 2 に示すように、PG 融合ブロックは 4 つのステップで構成されます。

1) ポイントツーグリッド (P2G) 操作は、入力ポイント フィーチャを鳥瞰図フィーチャ マップとレンジ ビュー フィーチャ マップにそれぞれ投影します。

2) 2D FCN を 2D 特徴マップに適用して、セマンティック特徴を効率的に抽出します。

3) グリッドツーポイント (G2P) 操作は、2D グリッド フィーチャを 3D ポイントに転送します。

4) ポイント フュージョンは、3D ポイント、鳥瞰図、および範囲ビュー ブランチからのフィーチャを融合して、完全な点群情報を保証します。

CPGNet は、ポイントベースの方法と 2D 投影ベースの方法の利点を組み合わせていることがわかります。P2G と G2P を除き、CPGNet のコンポーネントは TensorRT に直接デプロイできます。P2 G および G2 P 操作は、効率的な CUDA コードを使用して実装できます。CPGNet の各 PG 融合ブロックは同じネットワーク アーキテクチャを共有しますが、パラメータは共有しません。詳細については、以下のサブセクションを参照してください。

 図 2. ポイントグリッド (PG) 融合ブロック。このアルゴリズムは、最後の PG 融合ブロックのポイント特徴を入力として受け取り、ポイント、鳥瞰図、および距離ビューのブランチをそれぞれ通過します。出力点の特徴は、3 つのブランチの特徴を融合することによって得られます。

A. グリッドへのポイント

ポイントツーグリッド (P2G) 操作は、3D ポイント フィーチャを 2D グリッド フィーチャ マップに変換することを目的としています。図 3a に示すように、まず k 番目の 3D 点をp_{k} ^{3D}=\left ( x_k,y_k,z_k \right )2D グリッドに投影して、対応する 2D 座標を取得しますp_{k} ^{2D}=\left ( u_k,v_k\right )このセットには、R_{h,w}同じ 2D グリッド (h, w) に含まれる点のインデックスが含まれます。つまり、Rh, w = {k|uk 次に、点の特徴 F3 D k が max-pooling によって集約され、対応する 2D が形成されますR_{h,w}。メッシュ フィーチャ G2 D h、w。式は次のとおりです。

2D グリッドに複数の点が含まれる場合があります。並列競合を回避するために、同じ 2D グリッドを処理するときに CUDA の atomicMax 関数が利用されます。

 

        提案手法では鳥瞰図と距離図を使用する鳥瞰図では z 寸法が省略され、範囲図では r 寸法が省略されます。したがって、2 つのビューは補完的であり、2D 投影情報の損失を軽減します。実際、どちらのビューでも同様の P2G 操作が使用されます。2D での投影方法が異なるだけです。鳥瞰図の場合、次の方程式に要約されるように、事前定義された幅 Wbev と高さ Hbev を持つ長方形の 2D グリッド (xmin、ymin、xmax、ymax) を使用して離散化された xy 平面上に 3D 点を投影します。

p_{k} ^{3D}=\left ( x_k,y_k,z_k \right )レンジ ビューの場合、次の方程式を適用することにより 、3D 点が 3D デカルト空間から球面空間 psph k(rk, θk, φk) にマッピングされます。

 rk、θkφkはそれぞれ距離、天頂、方位角を表します。続いて、定義済みのビュー グリッド幅と高さ Hrv を持つ Wrv 範囲が θkφk によって離散化されますが、rk は無視されます。

(実際には3D点を平面や正面図に投影することになります)

 B. 2D FCN

        エンコーダおよびデコーダ アーキテクチャを備えた 2D FCN は、鳥瞰図および範囲ビューの特徴マップに適用され、それぞれ意味論的な特徴が抽出されます。これらは CPGNet の計算コストの 90% 以上を占めます。したがって、エンコーダ ネットワークは、最大 128 チャネルを持つ軽量のバックボーン ネットワークとして、わずか 9 層の ResNet [31] を使用します。ダウンサンプリング中に情報を保持するために、図 4a に示すように、並列ダウンサンプリングに 2D 畳み込みと 2D MaxPool を使用するデュアル ダウンサンプリング ブロックを提案します。実験では、ダブル ダウンサンプリング ブロックの方がレイテンシが無視できる程度に優れたパフォーマンスを発揮することが実証されています。

        既存のデコーダ構造 [10]、[26] は通常、高層と低層の特徴マップを融合するために特徴ピラミッド融合を採用しています。高レベルの特徴マップにはより多くの意味情報が含まれていますが、低レベルの特徴マップにはより詳細な情報が表示されます。セマンティック セグメンテーションの場合、一部の部分 (道路、建物など) は高レベルのセマンティック特徴が必要ですが、一部のパーツ (歩行者、オブジェクトの境界など) は詳細な特徴が必要です。単純な特徴マップ ステッチングを使用する代わりに、図 4b に示すように、異なるレベルから特徴を自動的に選択するためのアテンション フィーチャ ピラミッド フュージョンを提案します。

C. グリッドからポイントへ

ポイントツーグリッド (P2G) 操作とは対照的に、グリッドツーポイント (G2P) では、対応する 2D 座標 p2D k = (uk, vk) に従って、フィーチャを 2D グリッドから 3D ポイントに転送します。図 3b に示すように、4 つの隣接するグリッド内で双一次補間を適用します。式は次のとおりです。

 wi,j,k = (1 − |uk − (uk + i)|)(1 − |vk − (vk + j)|) は双線形補間を意味します。2D グリッドの境界の外側にある隣接グリッドはゼロとして扱われることに注意してください。各ポイントと各特徴チャネルが独立して計算され、CUDA 並列コンピューティングにより適していることがわかります。

D. ポイントフュージョン

        ポイント フュージョン モジュールは、ポイント、鳥瞰図、および距離ビューからのフィーチャを融合する役割を果たします。効率性を高めるため、機能カスケードと 2 つの MLP レイヤーのみを採用します。MPF [15] や AMVNet [30] とは異なり、ポイント フュージョンは後処理では実行されず、提案されたエンドツーエンド CPGNet の重要な部分である中間フュージョン モジュールとして実行されます。エンドツーエンド フレームワークには 2 つの利点があります: 1) 後処理が少なくて導入が簡単、2) トレーニング フェーズと評価フェーズの間のギャップを狭めることができます。実験部分がその優位性を証明します。

        特定のビュー内の点の特徴は、2D グリッドの範囲を超えてすべてゼロとして扱われますが、情報は他のビューから伝達される可能性があります。たとえば、スコープの鳥瞰図はスコープ外ですが、スコープのスコープ内ではスコープから意味のある特徴が見えるようにします。実験では、2 つのビューで分布を分析したところ、ほぼすべての点が少なくとも 1 つのビューの範囲内に収まることがわかりました。

E. 損失関数

         セグメンテーション予測は、完全接続 (FC) レイヤーを PG 融合ブロックの出力特徴に適用することによって取得されます。LiDAR セマンティック セグメンテーション データセット (SemanticKITTI、nuScenes など) には、非常に不均衡なカテゴリがあります。たとえば、道路、歩道、建物の数は、人やオートバイの数百倍です。この目的を達成するために、重み付きクロスエントロピー (WCE) 損失を採用して、レア クラスを手動で強調します。WCE 損失は次のように定式化できます。

 ここで、yc はグラウンド トゥルース ラベルを定義し、yc は予測確率、Fc は頻度、αc は c 番目のカテゴリの重みです。C はデータセットのカテゴリ番号です。実験では 0.001 に設定しました。また、Lov'aszSoftmax 損失 [28] を採用します。これは、第 2 損失項 Lls として平均積分オーバーユニオン (mIoU) メトリックを最適化できます。[27]、[29] に示されているように、セグメンテーション タスクの mIoU メトリックは向上します。詳細については、[28]を参照してください。

        以前の方法 [21]、[22] では、パフォーマンスを向上させるためにテスト時間拡張 (TTA) を採用していますが、これには複数のモデル推論が必要です。有効性と効率性を高めるために、元のポイントと強化されたポイントの差を減らすために変換一貫性損失 Ltc を提案します。式は次のとおりです。

 はそれぞれ元の点と強化された点の予測確率を表し、総損失関数は 3 つの部分の合計です。

4 実験結果

提案された CPGNet のパフォーマンスを SemanticKITTI [16] および nuScenes [32] ベンチマークで評価します。

        SemanticKITTIドイツの 1 つの都市で収集された 22 のシーケンスからの 43,552 の 360° LiDAR スキャンが含まれています。垂直に 64 本のビームを備えた Velodyne HDL-64 E 回転ライダーを装備しており、各 LIDAR スキャンには約 130k ポイントがあります。トレーニングセット(19,130​​スキャン)は00から10までのシーケンス(08を除く)で構成され、シーケンス08(4,071スキャン)が検証に使用されました。11 ~ 21 の残りのシーケンス (20,351 スキャン) は、オンライン リーダーボード用の LiDAR 点群のみを提供しました。データセットは 28 クラスでラベル付けされていますが、シングルスキャン LiDAR セマンティック セグメンテーションには 19 クラスの高レベルのラベル セットが使用されます。

新しくリリースされた LiDAR セマンティック セグメンテーション データセットであるnuScenesには、ボストンとシンガポールのさまざまな地域から収集された 1,000 のシーンが含まれています。各シーンは、ベロダイン HDL-32 E 回転 LiDAR によって 20 秒間、32 個の垂直ビームで収集されます。トレーニングには 28,130 個のサンプル、検証には 6,019 個、テストには 6,008 個のサンプルが使用されます。32 のクラスに注釈が付けられ、いくつかの同様のクラスを統合し、まれなクラスを削除した後、正式な評価に使用されたのは 16 クラスのみでした。

 評価指標。提案された CPGNet とその競合他社を評価するために、最も一般的なメトリックである和集合に対する平均交差 (mIoU) を採用します。それは次のように表現できます

 ここで、TPc、FPc、および FNc は、それぞれカテゴリ c の真陽性、偽陽性、および偽陰性です。C はクラスの総数です。

A. 実験のセットアップ

ネットワーク設定。図 2 に示すように、CPGNet の各 PG 融合ブロックは同様のネットワーク アーキテクチャを備えていますが、パラメータは異なります。実験では、2 つのカスケード PG 融合ブロックを使用します。これら 2 つのブロックの入力ポイント特徴チャネルの数は、それぞれ 9、64 です。最初のブロックの入力 9 チャネルは、x、y、z、強度、r、Δx、Δy、Δθ、Δφ を参照します。ここで、Δx、Δy、Δθ、Δφ は、対応する 2D グリッドの中心を表します。オフセット。各ブロックの最初の MLP 層は 64 個の特徴チャネルを出力します。これらは、後続の P2G 操作によって鳥瞰図および距離図の特徴マップに変換されます。どちらのビューも、3 つのダウンサンプリング ステージと 3 つのアップサンプリング ステージを備えた同様の 2D FCN ネットワークを利用していますが、レンジ ビューは高さの次元に沿ったダウンサンプリングを適用しません。2D FCN の各レベルのフィーチャ チャネルは、それぞれ 64、32、64、128、128、96、64、64 です。したがって、ポイント フュージョンの入力は 3 つのブランチからの 64 × 3 の特徴チャネルになります。これら 2 つの PG 融合ブロックの出力チャネルはそれぞれ 64、96 です。

SemanticKITTI の場合、Bird's Eye Map ブランチは、形状 (Wbev = 600、Hbev = 600) および範囲 (xmin = -50、ymin = -50、xmax = 50、ymax = 50) の 2D 特徴マップを受け入れます。そして、レンジ ビュー ブランチは入力形状を (Wrv=2048, Hrv=64) に設定します。Hrv=32 を除いて同じ構成の nuScene。これらのハイパーパラメータに基づいて、表 I に示すように、ポイントの 99.99% が SemanticKITTI の少なくとも 1 つのビューに該当することがわかります。

トレーニングの詳細。すべての実験は、NVIDIA RTX 2080Ti GPU 上の PyTorch FP32 を使用して実行されます。提案された CPGNet は、バッチ サイズ 16 で 30 エポックにわたって最初からトレーニングされます。トレーニング プロセスには 8 つの GPU で約 15 時間かかります。オプティマイザーは、初期学習率 0.02、6 エポックごとの減衰 0.1 の確率的勾配降下 (SGD) を利用します。他の方法ではトレーニングに公式コードを使用します。さらに、z 軸周りのランダムな回転、[0.95, 1.05] からサンプリングされたランダムなグローバル スケール、x 軸と y 軸に沿ったランダムな反転、ランダムなガウス ノイズ N(0, 0.02 ) などのデータ拡張をトレーニング中に適用します。 。

B. 結果

表 II に示すように、提案された CPGNet と SemanticKITTI テスト セットに関する最先端の CPGNet を比較します。これらの方法は、上から下に、ポイントベースの方法、2D 投影ベースの方法、およびスパースボクセルベースの方法に分類されます。CPGNet はすべてのポイントベースおよび 2D 投影ベースの方法よりも優れており、モーターサイクリストを除くほとんどのカテゴリでトップランクの RPVNet [24] に匹敵することがわかりました。このカテゴリにはトレーニング サンプルが少なく、自転車やオートバイと混同されていますが、これは LiDAR と画像融合によって対処できます。トラックと交通標識のカテゴリでは、CPGNet が RPVNet を大幅に上回っています。

        さらに、CPGNet は、SPVCNN [21]、Cylinder3D [22]、DRINet [33]、RPVNet [24] などのトップメソッドよりもはるかに高速に実行されます。RPVNet と公平に比較​​するために、NVIDIA Tesla V100 GPU (* でマーク) で CPGNet の速度もテストしたことに注意してください。

        nuScenes 検証セットの結果を報告します。表 3 に示すように、CPGNet は依然として 2D 投影ベースの手法を上回っており、トップランクの RPVNet に匹敵します。

C. アブレーション研究

提案されたコンポーネントの有効性を明確にするために、同じ実験設定を使用して SemanticKITTI 検証セットでアブレーション研究を実施します。

まず、ポイントグリッド(PG)融合ブロックを測定するアブレーション分析を実行しました。表 IV に示すように、ベースライン (最初の行) は MPF [15] を複製し、2D FCN アーキテクチャを採用し、一貫性の損失を変換しています。後者の行から、1) +0.9 ポイント融合は、MPF 後処理を強化するために mIoU より優れている、2) mIoU がポイント特徴を導入すると 2.1 のゲインを達成する、3) CPGNet 2 PG 融合ブロックは最大のゲインをもたらすことがわかります。シングルブロックバージョンと比べて mIoU が向上しました。

続いて、表 V に示すように、2D FCN アーキテクチャ、変換一貫性の損失、TensorRT FP 16 デプロイメントなどの他のコンポーネントの影響を分析します。2D FCN アーキテクチャの場合、ダブル ダウンサンプリング ブロック (DDB) とアテンション ピラミッド フィーチャー フュージョン (APFN) はそれぞれ mIoU を 0.3 と 0.7 改善し、その有効性を証明しています。実験では、TTA は点群を 3 回、つまり x 軸に沿って反転、y 軸に沿って反転、およびその両方に沿って反転します。見てわかるように、TTA はパフォーマンスを向上させます (+1.2mIoU) が、モデル推論が 4 回必要になります。トレーニング中に変換一貫性の損失を追加し、推論中に TTA を削除すると、TTA モデル推論よりもわずかに優れたパフォーマンス (+0.2 mIoU) が得られます。さらに、CPGNet は TensorRT FP 16 推論モードで簡単にデプロイでき、スキャンあたり 26.8 ミリ秒で実行され、パフォーマンスの低下はごくわずか (-0.1 mIoU) です。

5。結論

        この論文では、点、鳥瞰図、および範囲ビューの機能がカスケード フレームワークで融合される、正確で高速かつ導入が簡単な CPGNet LIDAR セマンティック セグメンテーションを提案します。TTA アルゴリズムと比較して、アルゴリズムのパフォーマンスを低下させることなく推論時間を節約する変換一貫性損失アルゴリズムが提案されています。さらに、シェル内の 3D 点フィーチャは完全な点群情報を維持し、2D メッシュ フィーチャは効率的な意味論的フィーチャの抽出に適していることがわかりました。mIoU 速度 (ミリ秒) 車、バイク、オートバイ、トラック、その他の車両、人、バイカー、バイク運転者、道路、駐車場、歩道、その他の地上、建物、フェンス、植生、木の幹、地形ポール、交通標識。

自分自身を要約してください:

点ベース法+平面投影法(正面図+鳥瞰図)

主に速い

疑っている

APFN と TTA の部分はよく理解されていません。議論することを歓迎します~

おすすめ

転載: blog.csdn.net/qq_53086461/article/details/130217824