論文の読書: SalsaNext: Autonomous D のための LiDAR 点群の高速かつ不確実性を認識したセマンティック セグメンテーション

SalsaNext: 自動運転向けの LiDAR 点群の高速かつ不確実性を認識したセマンティック セグメンテーション

0. 概要

このペーパーでは、SalsaNext による不確実なセマンティック セグメンテーション用の完全なリアルタイム 3D LiDAR 点群を紹介します。SalsaNext は SalsaNet [1] の次のバージョンで、エンコーダ/デコーダ アーキテクチャのエンコーダ ユニットには一連の ResNet ブロックと、アップサンプリングされた特徴と組み合わせられたデコーダ部分の残差ブロックがあります。SalsaNet と比較して、新しいコンテキスト モジュールを導入し、ResNetエンコーダ モジュールを受容視野が徐々に増加する新しい atrous 残差畳み込みに置き換え、デコーダにピクセル シャッフリング レイヤーを追加します。さらに、ストライド畳み込みから平均プーリングに切り替え、中央ドロップアウト戦略を適用します。Jaccard インデックスを直接最適化するために、加重クロスエントロピー損失を値リスト 'asz-Softmax 損失 [2] とさらに組み合わせます。最終的に、各点群の認識論的不確実性と偶然性の不確実性を計算するためにベイジアンを追加することになりました。私たちは Semantic-KITTI データセット [3] に関する包括的な定量的評価を提供します。これは、SalsaNext が Semantic-KITTI リーダーボードで 1 位にランクされている他のセマンティック セグメンテーション ネットワークを上回っていることを示しています。ソースコード https://github.com/TiagoCortinhal/SalsaNext も公開しています。

1 はじめに

        自動運転車にはシーンの理解が必須の前提条件です。セマンティック セグメンテーションは、個々の感覚データ ポイントごとに意味のあるクラス ラベルを予測することで、シーンを深く理解するのに役立ちます。このようなきめ細かい意味予測をリアルタイムで実現することで、完全自動運転が大幅に加速されます。

        ただし、自動運転車などの安全性が重要なシステムでは、高精度であるだけでなく、一貫した不確実性の尺度による信頼性の高い予測も必要です。これは、定量的な不確かさの測定値が意思決定モジュールなどの後続のユニットに伝播され、安全性が重視されるシステムにおいて非常に重要な安全な操縦計画や緊急ブレーキにつながる可能性があるためです。したがって、セマンティック セグメンテーションの予測と堅牢な信頼性推定を組み合わせることで、安全な自律性の概念を大幅に強化できます。

        高度なディープ ニューラル ネットワークは、最近、リアルタイム パフォーマンスで正確かつ信頼性の高いセマンティック セグメンテーションを生成するという点で大きな進歩を遂げています。ただし、これらの方法のほとんどはカメラ画像 [4]、[5] に依存しており、3D LiDAR データのセマンティック セグメンテーションについて論じている寄稿は比較的少数です [6]、[7]。その主な理由は、LiDAR スキャナは広い視野を持ち、より正確な距離測定値を返すにもかかわらず、格子状の構造で密な測定値を提供するカメラ画像とは異なり、LiDAR 点群は比較的まばらで構造化されておらず、サンプリングが不均一であるためです。

       [8] で包括的に説明されているように、3D LiDAR データのセマンティック セグメンテーションのみに対応する 2 つの主流の深層学習アプローチが存在します。それは、ポイントワイズ ニューラル ネットワークと投影ベースのニューラル ネットワークです (図 1 を参照)。前者は前処理ステップなしで生の 3D 点を直接操作しますが、後者は点群を 2D 画像ビューや高次元の体積表現などのさまざまな形式に投影します。図 1 に示すように、精度、実行時間、メモリ消費量の点で 2 つのアプローチには明確な違いがあります。たとえば、投影ベースの手法 (図 1 の緑色の円で示されている) は、大幅に高速に実行しながら最先端の精度を実現します。ポイント ネットワーク (赤い四角) のパラメータはわずかに少ないですが、処理能力が限られているため、大きなポイント セットに効率的に拡張することができず、より長い実行時間が必要になります。文献に記載されているポイントベースの方法と投影ベースの方法の両方に、不確実性の尺度、つまり信頼スコアが欠けていることに 注意することも重要です。

        この研究では、フル 3D LIDAR 点群の不確実性を考慮したセマンティック セグメンテーションをリアルタイムで実行する、新しいニューラル ネットワーク アーキテクチャを導入します。私たちが提案するネットワークは SalsaNet モデル [1] に基づいて構築されているため、SalsaNext という名前が付けられています。SalsaNet モデルにはエンコーダー/デコーダー スケルトンがあり、エンコーダー ユニットは一連の ResNet ブロックで構成され、デコーダー部分は残差ブロックで抽出された特徴をアップサンプリングして融合します。ここで提案する SalsaNext では、私たちの貢献は次の側面にあります。

  • フル 360° LiDAR スキャンでグローバルなコンテキスト情報を取得するために、エンコーダーの前に新しいコンテキスト モジュールを導入します。これは、さまざまなスケールで受容野を融合する残留拡張畳み込みのスタックで構成されます。
  • 受容野を増やすために、エンコーダーの ResNet ブロックを拡張畳み込みのセット (レート 2) の新しい組み合わせに置き換えます。各畳み込みは異なるカーネル サイズ (3、5、7) を持ちます。さらに畳み込み出力を連結し、残りの接続と組み合わせて分岐のような構造を生成します。
  • アップサンプリング中のチェッカーボード効果を回避するために、SalsaNet デコーダの転置畳み込み層をピクセル シャッフル層 [9] に置き換えます。これは、特徴マップを直接利用して、少ない計算量で入力をアップサンプリングします。
  • セグメンテーション プロセスにおける非常に基本的な特徴 (エッジやカーブなど) の役割を強化するために、ドロップアウト プロセスの最初と最後のネットワーク層を省略してドロップアウト プロセスが変更されます。
  • モデルを軽量化するために、エンコーダではストライド畳み込みの代わりに平均プーリングが使用されます。
  • 平均クロスジョイント スコア (つまり、Jaccard インデックス) を最適化することでセグメンテーションの精度を向上させるために、SalsaNet の加重クロスエントロピー損失が Lov'asz-Softmax 損失 [2] と組み合わされます。
  • 各 3D LiDAR ポイントの認識 (モデル) および任意 (観測) の不確実性をさらに推定するために、決定論的な SalsaNet モデルは、ベイジアン プロセスを適用することで確率的形式に変換されました。

        これらすべての貢献は、ここで紹介する SalsaNext モデルを形成します。これは、大幅に優れたセグメンテーション パフォーマンスを備えた SalsaNet の確率的派生です。SalsaNext への入力は、完全な LiDAR スキャンのラスタライズされた画像であり、各画像チャネルには位置、深度、および強度の手がかりがパノラマ ビュー形式で保存されます。最終的なネットワーク出力は、不確実性の尺度を伴う点ごとの分類スコアです。

        私たちの知る限り、これは、LiDAR 点群セグメンテーション タスクの認識的不確実性と偶然的不確実性の両方の推定を示した最初の研究です。認識論的な不確実性はセグメンテーション モデルの限界を示す可能性がある一方、任意の不確実性はセグメンテーションに使用されるセンサー観測のノイズを強調するため、安全な自動運転では両方のタイプの不確実性を計算することが重要です。

        SemanticKITTI データセット [3] の定量的および定性的実験では、提案された SalsaNext がピクセル セグメンテーションの精度の点で他の最先端のネットワークよりも大幅に優れていると同時に、パラメータが少なく、必要な計算時間が短いことが示されています。SalsaNext は Semantic-KITTI リーダーボードで 1 位です。

        このトピックに関するさらなる研究を促進するために、ソース コードとトレーニング済みモデルも公開していることに注意してください。

2.関連作品

        このセクションでは、3D 点群データのセマンティック セグメンテーションに関する最近の研究を要約します。次に、ベイジアン ニューラル ネットワークにおける不確実性推定に関連する文献を簡単にレビューします。

A. 3D 点群のセマンティック セグメンテーション

        最近、ディープ ニューラル ネットワークを使用した 3D LiDAR 点群のセマンティック セグメンテーションにおいて大きな進歩が見られました [1]、[6]、[7]、[10]、[11]。これらの高度な手法の主な違いは、ネットワーク設計だけでなく、点群データの表現にもあります。

        完全畳み込みネットワーク [12]、エンコーダ-デコーダ構造 [13]、マルチブランチ モデル [5] などが、セマンティック セグメンテーションの主流のネットワーク アーキテクチャです。各ネットワーク タイプには、さまざまなレベルの特徴をエンコードする独自の方法があり、それらを融合して空間情報を復元します。私たちが提案する SalsaNext は、ほとんどの最先端の方法で有望なパフォーマンスを示すエンコーダー/デコーダー設計に従っています [6]、[10]、[14]。

        非構造化および非順序付け 3D LiDAR ポイントの表現に関しては、図 1 に示すように、ポイントごとの表現と投影ベースのレンダリングという 2 つの一般的なアプローチがあります。3D データ表現の詳細については、興味のある読者に [8] を参照してください。

        Pointwise メソッド[15]、[16] は、追加の変換や前処理を適用せずに、生の不規則な 3D ポイントを直接処理します。共有多層パーセプトロンベースの PointNet [15]、フォローアップ PointNet++ [16]、およびスーパーポイント グラフ SPG ネットワーク [17] がこのグループで考慮されます。これらの方法は小さな点群には強力ですが、残念ながら、完全な 360° LIDAR スキャンを実行すると、その処理能力とメモリ要件が非効率になります。ポイントごとの操作を高速化するために、カメラ画像で使用されるような追加のキューが [18] で導入されることに成功しました。

        投影ベースの方法は、3D 点群をボクセル ユニット [13]、[19]、[20]、マルチビュー表現 [21]、格子構造 [22]、[23]、ラスター化画像 [1] などのさまざまな形式に変換します。 ]、[6]、[10]、[24]。マルチビュー表現では、3D 点群がさまざまな仮想カメラの視点から複数の 2D 表面に投影されます。その後、[21] に示すように、各ビューはマルチストリーム ネットワークによって処理されます。格子構造では、元の組織化されていない点群が置換されたファセット疎格子に補間され、双方向畳み込みが占有格子セクターにのみ適用されます [22]。ボクセル表現に依存する方法は、3D 空間を 3D 体積空間 (つまり、ボクセル) に離散化し、各点を対応するボクセルに割り当てます [13]、[19]、[20]。ただし、多くのボクセル セルが空のままである可​​能性があるため、点群のまばらさと不規則性により、ボクセル化されたデータで冗長な計算が生成されます。LiDAR データのスパース性を克服する一般的な試みは、3D 点群をトップダウンの鳥瞰図 [1]、[25]、[26] または球面範囲ビュー (RV) のいずれかの 2D 画像空間に投影することです。 (つまり、パノラマ ビュー) [7]、[6]、[10]、[24]、[27]、[11] 形式。ポイントワイズや他の投影ベースの方法とは異なり、このような 2D レンダリングされたイメージ表現は、標準の 2D 畳み込み層で処理できるため、よりコンパクトで高密度であり、計算コストが低くなります。したがって、SalsaNext モデルは、最初に、各 3D 点を球面にマッピングすることによって生成された 2D RV 画像に LiDAR 点群を投影します。

        この研究では、LiDAR のみのデータのセマンティック セグメンテーションに焦点を当てているため、[18] のように、LiDAR とカメラ データなどを融合するマルチモデル アプローチは無視されていることに注意してください。

B. ベイジアン ニューラル ネットワークに基づく不確実性予測

        ベイジアン ニューラル ネットワーク (BNN) は、重みの近似分布を学習して、不確実性の推定値、つまり予測の信頼度をさらに生成します。不確実性には 2 つのタイプがあります。1 つは観測データから固有の不確実性のランダム性を定量化する Aleatoric で、もう 1 つは認識的なもので、通常はモンテカルロ サンプリングを介して事後重みの分布を推論することでモデルの不確実性の認識論的な性質を推定します。

        データ内の還元不可能なノイズを捕捉する偶発的不確実性とは異なり、認識的不確実性は、より多くのトレーニング データを収集することで軽減できます。たとえば、データセット内のトレーニング サンプルが比較的少ないオブジェクトをセグメント化すると、高い認識的な認知的不確実性が生じる可能性がありますが、高い偶然性の任意の不確実性がセグメントの境界または離れた場所で発生し、センサー内の本質的にノイズの多いセンサー読み取り値によって抑制される可能性があります。遮られたオブジェクト。ベイジアン モデリングは、両方のタイプの不確実性を推定するのに役立ちます。

        ガルら。[28] は、ドロップアウトを分類、回帰、強化学習タスクにおける不確実性を推定するためのベイズ近似として使用できることを実証し、Kendall らはこのアイデアを RGB 画像のセマンティック セグメンテーションにも拡張しました。[4]。ロケルシオら。[29] は、センサーから生成された不確実性を再学習せずに伝播することによってドロップアウト手法を拡張するフレームワークを提案しています。最近、両方のタイプの不確実性が 3D 点群オブジェクト検出 [30] タスクとオプティカル フロー推定 [31] タスクに適用されています。私たちの知る限り、BNN は、この研究の主な貢献の 1 つである 3D LiDAR 点群のセマンティック セグメンテーションにおける不確実性のモデル化には使用されていません。

        この文脈において、私たちの研究に最も近いのは [32] です。これは、点群インスタンスのセグメンテーションのための確率的埋め込み空間を導入しています。ただし、このアプローチでは、任意の不確実性や認識論的な不確実性は捕捉されず、むしろ予測点群埋め込み間の不確実性が捕捉されます。私たちのアプローチとは異なり、上記の作業が大規模で複雑な LiDAR 点群にどのように拡張されるのかも示していません。

3. 方法

        このセクションでは、点群表現から始めてアプローチを詳細に説明します。次に、ネットワーク アーキテクチャ、不確実性の推定、損失関数、トレーニングの詳細について説明します。

A. LiDAR 点群表現

        [7] と同様に、非構造化 3D LiDAR 点群を球面に投影して、LIDAR のローカル レンジ ビュー (RV) 画像を生成します。このプロセスにより、高密度でコンパクトな点群表現が得られ、標準的な畳み込み演算が可能になります。

        2D RV 画像では、各生の LiDAR ポイント (x、y、z) が次のように画像座標 (u、v) にマッピングされます。

 ここで、h と w は投影された画像の高さと幅を表し、r は各点の範囲を表し、r = x2 + y2 + z2、f はセンサーの垂直視野を f=|fdown|+|fup| として定義します。

        [7] の研究に従って、投影中に 360° の視野全体を考慮します。投影中、3D 点座標 (x、y、z)、強度値 (i)、および範囲インデックス (r) が個別の RV 画像チャネルとして保存されます。これにより、[w × h × 5] の画像が生成され、ネットワークに供給されます。

B. ネットワークアーキテクチャ

        提案された SalsaNext のアーキテクチャを図 2 に示します。ネットワークへの入力は、セクション III-A で説明されているように、点群の RV 画像投影です。

        SalsaNext は、SalsaNet モデル [1] をベースに構築されており、ボトルネック圧縮率 16 の標準エンコーダ/デコーダ アーキテクチャに従っています。オリジナルの SalsaNet エンコーダは、一連の ResNet ブロック [33] で構成され、各ブロックの後にドロップアウト層とダウンサンプリング層が続きます。デコーダ ブロックは転置畳み込みを適用し、スキップ接続を介してアップサンプリングされた特徴を以前の残差ブロックの特徴と融合します。記述的な空間キューをさらに活用するために、スキップ接続の後に畳み込みのスタックが挿入されます。図 2 に示すように、この研究では次の貢献によって SalsaNet の基礎となる構造を改善しました。

コンテキスト モジュール コンテキスト モジュール:セマンティック セグメンテーションの主な問題の 1 つは、ネットワーク全体のコンテキスト情報が欠如していることです。大きな受容野によって収集されるグローバルな文脈情報は、クラス間の複雑な相関関係を学習する際に重要な役割を果たします [5]。さまざまな領域のコンテキスト情報を集約するために、ネットワークの先頭に 1×1 および 3×3 カーネルを追加することで、残留拡張畳み込みのスタックを配置し、より大きな受容野とより小さな受容野を融合します。これは、グローバルなコンテキストとより詳細な空間情報をキャプチャするのに役立ちます。

拡張コンボリューション 拡張コンボリューション: 受容野は、空間的特徴を抽出する際に重要な役割を果たします。よりわかりやすい空間特徴を捕捉するための簡単なアプローチは、カーネル サイズを拡大することです。ただし、これにはパラメータの数が大幅に増加するという欠点があります。代わりに、元の SalsaNet エンコーダーの ResNet ブロックを、有効受容野 3、5、7 を持つ拡張畳み込みの新しい組み合わせに置き換えます (図 2 のブロック I を参照)。さらに、各拡張畳み込みの出力を連結し、1 × 1 畳み込みとそれに続く残留接続を適用して、ネットワークが受容野の異なる深さで融合された特徴からより多くの情報を利用できるようにします。これらの新しい残差拡張畳み込みブロック (ブロック I) のそれぞれの後には、図 2 のブロック II に示すように、ドロップアウト層とプーリング層が続きます。

ピクセル シャッフィー層: オリジナルの SalsaNet デコーダには転置畳み込みが含まれており、パラメータ数の点で計算コストのかかる層です。これらの標準的な転置畳み込みをピクセルシャッフル層 [9] (図 2 のブロック III を参照) に置き換えます。この層は、学習された特徴マップを利用して、ピクセルをチャネル次元から空間次元にシフトすることによってアップサンプリングされた特徴マップを生成します。より正確には、ピクセル再配置オペレーターは、(H × W × Cr2) 特徴マップの要素を (Hr × Wr × C) の形式に再形成します。ここで、H、W、C、r はそれぞれ高さ、幅、チャネルを示します。数も倍率も。

また、デコーダ側のフィルタを 2 倍にし、カスケード内のデコーダの拡張畳み込みブロック (図 2 のブロック V) (図 2 のブロック IV) に供給する前に、ピクセル シャッフルされた出力をスキップと連結します。

中央のエンコーダ/デコーダのドロップアウト: [4] の定量的実験で示されているように、ドロップアウトを中央のエンコーダ層とデコーダ層にのみ挿入すると、セグメンテーションのパフォーマンスが向上します。これは、下位のネットワーク層がエッジやコーナー [34] など、データ分布全体で一貫した重要な特徴を抽出しており、これらの層を削除すると、ネットワークがより深い層で高レベルの特徴を正しく形成できなくなるためです。中央ドロップ方式は、最終的にはネットワーク パフォーマンスの向上につながります。したがって、図 2 の破線で強調表示されている最初と最後の層を除くすべてのエンコーダー/デコーダー層にドロップアウトを挿入します。

平均プーリング: 基本の SalsaNet モデルでは、追加の学習パラメーターを導入するストライド畳み込みによってダウンサンプリングが実行されます。ダウンサンプリング プロセスが比較的単純であることを考えると、このレベルでの学習は必要ないと仮説を立てます。したがって、割り当てるメモリを少なくするために、SalsaNext はダウンサンプリングの平均プーリングに切り替えます。

これらの貢献はすべて、提案されている SalsaNext ネットワークからのものです。さらに、チャネル数がセマンティック クラスの総数と同じになるように、デコーダ ユニットの後に 1×1 畳み込みを適用します。最終的な特徴マップは最終的にソフトマックス分類器に渡され、ピクセル分類スコアが計算されます。SalsaNext モデルの各畳み込み層は、内部共変シフトを考慮してバッチ正規化が後に続くリーキー ReLU 活性化関数を採用していることに注意してください。バッチ正規化の後にドロップアウトが配置されます。そうしないと、[35] に示されているように、重み分布のシフトが発生し、トレーニング中のバッチ正規化効果が最小限に抑えられる可能性があります。

C. 不確実性の推定 不確実性の推定

1) 不均一分散的偶然性不確実性不均一分散的偶然性不確実性: 任意の不確実性は、等分散性と不均一分散性の 2 つのタイプとして定義できます。前者は任意の非決定的タイプであり、異なる入力タイプ間で一定のままですが、後者は異なる入力タイプ間で変化する可能性があります。LiDAR セマンティック セグメンテーション タスクでは、離れたポイントを単一のクラスに割り当てることがますます困難になるため、離れたポイントによって不均一分散の不確実性が生じる可能性があります。セマンティック セグメンテーションを実行するとき、特にオブジェクトと背景の間の勾配が十分にシャープではない場合、同じ種類の不確実性がオブジェクトのエッジでも観察されることがあります。

LiDAR の観測はノイズによって損なわれることが多いため、ニューラル ネットワークが処理する入力は現実世界のノイズが多いバージョンになります。センサーのノイズ特性が既知であると仮定すると (たとえば、センサーのデータシートで入手可能)、入力データ分布は正規 N(x,v) で表すことができます。ここで、x は観測値を表し、v はノイズを表します。センサー。この場合、任意の不確実性は、ネットワークを通じてノイズを伝播する密度フィルタリング (ADF) を仮定することによって計算できます。このアプローチは元々、Gast らによって適用されました。[36] では、ネットワーク (入力と出力の両方) の活性化関数が確率分布に置き換えられます。この修正された ADF ベースのニューラル ネットワークにおけるフォワード パスは、最終的に、それぞれの任意の不確実性 σA を持つ出力予測 μ を生成します。

2) 認識論的不確実性: SalsaNext では、認識論的不確実性は重み |X,Y) の事後 p(W) を使用して計算されますが、これは扱いが難しく、したがって解析的に提示することが不可能です。しかし、[28] の研究では、ドロップアウトが不応性後部の近似値として使用できることを示しています。より具体的には、ドロップアウトは、L 層、ω = [W1] L1 = 1 の BNN における事後分布の近似分布 qθ(ω) です。ここで、θ は変分パラメーターのセットです。最適化目的関数は次のように記述できます。

ここで、KL はカルバックライブラー発散からの正則化を表し、N はデータ サンプルの数、S は M データ サンプルのランダムなセットを保持、yi はグラウンド トゥルースを表し、fω(xi) は重みパラメーター ω および p(yi) を持つ xi 入力です。ネットワークの出力 |fω(xi)) の尤度。KL 項は次のように近似できます。

 

確率 p のベルヌーイ確率変数のエントロピーを示し、K は正則化項と予測子項のバランスをとる定数です。

たとえば、この場合、負の対数尤度は次のように推定されます。

σ モデルの不確実性のガウス尤度。

認知の不確実性を測定できるようにするために、推論中にモンテカルロ サンプリングを使用します。n 回の試行を実行し、n 個の予測出力の分散の平均を計算します。

[29] で紹介されているように、KL 発散を最小限に抑える最適なドロップアウト率は、範囲 [0, 1] の可能なレートの特定の数の対数範囲にわたってグリッド検索を適用することによって、すでにトレーニングされたネットワークに対して推定されます。実際には、これは、最適なドロップアウト率 p が以下によって最小化されることを意味します。

ここで、 σtot は任意の不確実性と認識的不確実性の合計の総不確実性を表し、D は入力データ、yd pred(p) と yd はそれぞれ予測とラベルです。

D. 損失関数

クラスのバランスが取れていないデータセットは、ニューラル ネットワークに課題をもたらします。たとえば、自転車や交通標識を考えてみましょう。自動運転のシナリオでは、これらは車両よりもはるかに一般的ではありません。これにより、ネットワークはトレーニング データに多く出現するクラスに偏り、ネットワーク パフォーマンスの大幅な低下につながります。

 不均衡クラス問題を普及させるために、SalsaNet でも同じ戦略に従い、ソフトマックスのクロスエントロピー損失 Lwce をクラス周波数の逆平方根で重み付けすることで、過小評価されているクラスにさらなる価値を追加します。

ここで、 yi と (yi は真のクラス ラベルと予測されたクラス ラベルを定義し、fi は i 番目のクラスの頻度、つまりポイントの数を表します。これにより、データセット内で出現頻度が低いクラスに対するネットワークの応答が強化されます。

 SalsaNet と比較して、ここでは Lov'asz-Softmax 損失 [2] も学習プロセスに組み込んで、Intersection over Unit (IoU) スコア、つまり Jaccard Index を最大化します。IoU メトリック (セクション IV-A を参照) は、セグメンテーションのパフォーマンスを評価するために最も一般的に使用されるメトリックです。ただし、IoU は離散的で導出不可能な指標であり、損失として直接使用する方法はありません。[2] では、著者らはサブモジュラー関数の Lov'asz 拡張を利用してこのメ​​トリックを採用しています。IoU がハイパーキューブであり、各頂点がクラス ラベルの可能な組み合わせであることを考慮して、IoU スコアがハイパーキューブ内の任意の場所で定義されるように緩和します。これに関して、Lov'asz-Softmax 損失 (Lls) は次のように定式化できます。

ここで、 |C| はクラス番号 ∆Jc を表し、Jaccard インデックスの Lov´asz 拡張を定義します。xi(c) ∈ [0, 1] および yi(c) ∈ {−1, 1} はピクセルですクラス c の i、それぞれ の予測確率とグラウンドトゥルースラベル。

最後に、SalsaNext の合計損失関数は、L = Lwce + Lls のような重み付きクロスエントロピーと Lov'aszSoftmax 損失の線形結合です。

E. オプティマイザーと正則化

オプティマイザーとして、初期学習率 0.01 と各エポック後の減衰 0.01 の確率的勾配降下法を採用します。また、λ = 0.0001、運動量 0.9 の L2 ペナルティも適用しました。バッチおよび空間ドロップアウト確率は、それぞれ 24 および 0.2 に固定されました。過学習を防ぐために、投影を作成する前に、ランダムな回転/平行移動、y 軸周りのランダムな反転、ランダムな点のドロップを適用することでデータを強化します。各拡張は、0.5 の確率で互いに独立して適用されます。

F. 後処理

投影ベースの点群表現の主な欠点は、離散化エラーと曖昧な畳み込み層の応答による情報損失です。この問題は、たとえば、RV 画像が元の 3D 空間に再投影されるときに発生します。その理由は、画像レンダリング プロセス中に複数の LiDAR ポイントがまったく同じ画像ピクセルに割り当てられる可能性があり、特にオブジェクト エッジの誤分類につながるためです。この効果は、たとえばオブジェクトが背景シーンに影を落とす場合に、より顕著になります。

逆投影に関連するこれらの問題を普及させるために、[7] で紹介された kNN ベースの後処理手法を採用します。後処理は、対応する各画像ピクセルの周囲のウィンドウを使用して各 LIDAR ポイントに適用され、点群のサブセットに変換されます。次に、kNN を使用して最近傍のセットが選択されます。ユークリッド距離の代わりに範囲を使用する背後にある仮定は、近くの (u,v) 点の範囲が 3 次元空間のユークリッド距離の適切な代用として機能するように小さなウィンドウが適用されるという事実にあります。詳細については[7]を参照してください。

この後処理は推論中のネットワーク出力にのみ適用され、学習には影響しないことに注意してください。

4. 実験

私たちは SalsaNext のパフォーマンスを評価し、43,000 以上の点ごとのアノテーションの完全なセットを提供する大規模で挑戦的な Semantic-KITTI データセット [3] で他の最先端のセマンティック セグメンテーション手法と比較します。 。[7] とまったく同じプロトコルに従い、データセットをトレーニング、検証、テストの部分に分割します。21,000 を超えるスキャン (00 から 10 までのシーケンス) がトレーニングに使用され、シーケンス 08 のスキャンが特に検証専用に使用されました。残りのスキャン (シーケンス 11 と 21 の間) はテスト分割として使用されました。データセットには合計 22 のクラスがあり、そのうち 19 は公式オンライン ベンチマーク プラットフォームのテスト セットで評価されます。私たちはモデルを PyTorch に実装し、コードを公開用にリリースしました https://github.com/TiagoCortinhal/SalsaNext

A. 評価指標

モデルの結果を評価するには、mIoU = 1 C C i=1 |Pi∩Gi| |Pi∪Gi で与えられる、すべてのクラスの平均交差和集合 (IoU) とも呼ばれる Jaccard 指数を使用します。 | 、Pi が i を予測する時点のセット クラス、Gi クラス i のラベル セット、および || セットのカーディナリティ

B. 定量的結果

他の高度なポイントワイズおよび射影ベースの手法と比較して得られた定量的結果 表 i に報告されているピースは、SalsaNext モデルを示しています。SalsaNext は他のモデルよりも大幅に優れており、平均 IOU の最高スコア (59.5%) + 過去の高度なメソッドより 3.6% を獲得しました。 。オリジナルの SalsaNet と比較して、精度も 14% 以上向上しました。各カテゴリーのパフォーマンスに関しては、SalsaNext が 19 カテゴリー中 9 カテゴリーで最高のパフォーマンスを示しました。これらの残りの 10 クラス (道路、植生、地形など) では、SalsaNext は他のメソッドと同等に機能することに注意してください。

[29] の研究に従って、SalsaNext モデルを再トレーニングすることなく、認知的不確実性と任意の不確実性をさらに計算します (セクション 2 を参照)。III-C)。図 3 は、認知 (モデル) の不確実性と、Semantic-KITTI テスト データセット全体における各クラスのポイント数との間の定量的な関係をプロットしています。このプロットにはサンプルが斜めに分布しており、オートバイやオートバイなど、少数の点で表されるまれなクラスについてネットワークの不確実性が低くなっていることが明確に示されています。得られた不確実性とセグメンテーションの精度の間には、ある程度の逆相関もあります。表 I にあるように、バイク運転者の IoU スコアが最も低かった (19.4%) ように、ネットワークが誤ったラベルを予測すると、不確実性は高くなります。

C. 定性的結果

定性的評価として、図 4 に Semantic-KITTI テスト セットで SalsaNext によって生成されたセマンティック セグメンテーションと不確実性の結果のサンプルを示します。

この図では、セグメント化されたオブジェクト点も、視覚化のみを目的として、対応するカメラ画像に逆投影されています。ここで、これらのカメラ画像が SalsaNext のトレーニングに使用されていないことを強調します。図 4 に示すように、SalsaNext は道路、車、その他のオブジェクト ポイントをかなりの程度まで区別できます。図4では、明確にするために、カメラ画像に投影された推定された認知的不確実性値と任意の不確実性値をさらに示しています。ここで、水色の点は最も不確実性が高いことを表し、暗い点はより確実な予測を表します。図 3 と一致して、図 4 の最後のフレームに示されている他の背景などの稀なクラスについては、高い認知的不確実性が得られます。また、高レベルの任意の不確実性が主にセグメント境界の周囲 (図 4 の 2 番目のフレームを参照) および遠くの物体 (たとえば、図 4 の最後のフレーム) に現れることも観察されています。補足ビデオ 1 では、より定性的な結果を示します。

D. アブレーション研究

 このアブレーション分析では、元の SalsaNet モデルに対する各改善の個別の寄与を調査します。表 II は、kNN ベースの後処理を適用する前後で Semantic-KITTI テスト セットで取得された mIoU スコアのモデル パラメーターと FLOP (浮動小数点演算) の総数を示しています (セクション III-F を参照)。

 表 II に示すように、SalsaNet への私たちの貢献はそれぞれ、精度において独自の改善をもたらしています。後処理ステップにより、精度がある程度向上します (約 2%)。拡張畳み込みスタックがエンコーダーに導入されたときにモデル パラメーターのスパイクが観察されましたが、デコーダーにピクセル シャッフリング レイヤーを追加した後は大幅に減少しました。重み付きクロスエントロピー損失と Lov'asz-Softmax を組み合わせると、Jaccard 指数の直接最適化により精度が最も高くなります。オリジナルの SalsaNet モデルと比較すると、わずか 2.2% (つまり 0.15M) の追加パラメータで 59.5% という最高の精度スコアを達成できます。表 II は、FLOP の数がパラメータの数に関係していることも示しています。知識と任意の不確実性の計算を追加しても、追加のトレーニング パラメーターは導入されないことに注意してください。これらのパラメーターはネットワークのトレーニング後に計算されるためです。

 

E. 実行時評価

自動運転では実行時のパフォーマンスが重要です。表 3 は、他のネットワークと比較した、SalsaNext の CNN バックボーンおよび後処理モジュールの総ランタイム パフォーマンスを報告します。公平な統計を取得するために、すべての測定は、同じ NVIDIA Quadro RTX 6000 - 24 GB カード上の Semantic-KITTI データセット全体を使用して実行されました。表 III に示すように、私たちのメソッドは、7 倍のパラメーターを持ちながら、RangeNet++ [7] と比較して大幅に優れたパフォーマンスを示しています。SalsaNext は、決定論的モデルとの公正な比較のために不確実な計算が除外されている場合、24 Hz で実行できます。私たちが達成するこの高速度は、通常 10 Hz で動作する主流の LiDAR センサーのサンプリング レートよりも大幅に速いことに注意してください [39]。図 1 では、実行時間、精度、メモリ消費量の観点から、SalsaNext の全体的なパフォーマンスを他の最先端のセマンティック セグメンテーション ネットワークと比較しています。

5。結論

私たちは、リアルタイムで完全な 360° LiDAR スキャンを処理できる、SalsaNext という名前の不確実性を認識した新しいセマンティック セグメンテーション ネットワークを提案します。SalsaNext は SalsaNet モデルに基づいて構築されており、14% 以上の精度を達成できます。以前の方法と比較して、SalsaNext は +3.6% 高い mIoU スコアを返します。私たちのアプローチは、SalsaNext がデータとモデルベースの不確実性も推定するという点で異なります。

自分自身を要約してください:

ざっと見ましたが、あまりじっくり見ていませんでした。ネットワーク構造は皆さん似ているような気がします。pmf の LIDAR ストリームの処理ネットワークです。なので、ざっと見てみました。革新のポイントは、不確実性とリアルタイムのパフォーマンスの測定である必要があります。

おすすめ

転載: blog.csdn.net/qq_53086461/article/details/130323985