4D概要|自動運転のためのマルチセンサー融合知覚

元のアドレス: Wanzi Review | 自動運転のためのマルチセンサー融合認識

翻訳:若者のために戦う

証明: ドン・ヤーウェイ

00まとめ

マルチモーダルフュージョンは自動運転システムにおける知覚の基本的なタスクであり、最近多くの研究者の関心を集めています。ただし、生データにノイズが多く、情報が十分に活用されておらず、マルチモーダル センサーの位置がずれているため、適度に良好なパフォーマンスを達成することは簡単ではありません。

この論文では、自動運転のための既存のマルチセンサー融合知覚方法の文献レビューを行います。全体として、LIDAR とカメラを使用して物体検出とセマンティック セグメンテーション タスクを解決しようとするアプローチを含む、50 を超える論文の詳細な分析を紹介します。

従来の融合モデルの分類方法とは異なり、融合段階の観点からより合理的な分類法で融合モデルを2つのカテゴリと4つのサブカテゴリに分割する革新的な方法を提案します。さらに、私たちは、まだ取り組む必要がある問題に焦点を当てて、現在の核融合アプローチの詳細な研究を実施し、潜在的な研究の機会について議論します。要約すると、この論文の目的は、自動運転知覚タスクのためのマルチモーダルフュージョン手法の新しい分類を提案し、将来のフュージョンベースの技術について考えるきっかけとなることです。

01 はじめに

環境認識は自動運転にとって重要なモジュールです [26、44、71]。これらには、2D/3D オブジェクト検出、セマンティック セグメンテーション、深度補完、予測が含まれますが、これらに限定されません。これらはすべて、車両に搭載されたセンサーによって環境から収集された生データに依存します。ほとんどの既存の方法 [44] は、LiDAR とカメラでキャプチャされた点群および画像データのそれぞれに対して認識タスクを実行し、いくつかの有望な結果をもたらしています。

ただし、単峰性データのみによる認識には特定の欠点があります [4、26]。たとえば、カメラによってキャプチャされたデータは主に視野の前の低い位置にあります [102]; より複雑なシーンではオブジェクトが遮られる可能性があり、オブジェクトの検出とセマンティック セグメンテーションに重大な課題が生じます。さらに、ライダーは機械的構造による制限があるため、距離が異なると解像度が異なり[91]、濃霧や大雨などの異常気象の影響を受けやすくなります[4]。ただし、これら 2 つのモードのデータを別々に使用すると、異なる分野で優れたパフォーマンスを発揮します [44]。ライダーとカメラの融合が認識されると、この 2 つは相互に補完して認識タスクでより良いパフォーマンスを生み出します [4, 76, 90]。

最近では、自動運転における知覚タスク [15、77、81] に関して、より高度なクロスモーダル特徴表現やさまざまなモダリティにおけるより信頼性の高いセンサーから、より複雑で堅牢なディープラーニング モデルやマルチモーダル Fusion テクノロジーに至るまで、急速に発展しています。しかし、マルチモーダル融合手法自体に焦点を当てている文献レビューはわずか数件 [15、81] のみであり、そのほとんどは伝統的なルールに従います。つまり、データ レベルかどうかにかかわらず、初期融合、深部融合、後期融合の 3 つのカテゴリに分類されます。機能レベルまたは提案レベル (提案レベル) はすべて、深層学習モデル内の機能を融合する段階に焦点を当てています。まず、この分類法では、各レベルのフィーチャ表現が明示的に定義されていません。第二に、LIDAR とカメラの 2 つのブランチが処理において常に分離されており、LIDAR の提案レベルの特徴とカメラのデータ レベルの特徴の融合がぼやけていることを示しています [106]。結論として、従来の分類法は直観的であるかもしれませんが、近年出現した多峰性融合手法の増加を大まかに要約しており、研究者がそれらを体系的に研究および分析することを妨げています。

この記事では、自動運転知覚のためのマルチセンサーフュージョンに関する最近の論文を簡単にレビューし、50 を超える関連論文を 2 つのカテゴリーと 4 つのサブカテゴリーに分類する革新的なアプローチを提案します。

この研究の主な貢献は次のように要約できます。

  • 自動運転知覚のためのマルチモーダル融合手法の革新的な分類法が提案されています。これには、強融合と弱融合の 2 つの主要カテゴリと、初期融合、深融合、後期融合、および非対称融合の 4 つの強融合サブカテゴリが含まれます。これらは、LiDAR とカメラの機能表現を通じて明確に定義されます。
  • LIDAR とカメラ ブランチのデータ形式と表現を詳細に分析し、それらのさまざまな特性について説明します。
  • 私たちは、解決すべき問題の詳細な分析を行い、マルチセンサーフュージョンの潜在的な研究方向性をいくつか紹介し、将来の研究活動にインスピレーションを与えることを期待しています。

この記事は次の部分で構成されています。

2 番目のセクションでは、物体検出、セマンティック セグメンテーション、および広く使用されているいくつかのオープン データセットとベンチマークを含む (ただしこれらに限定されない)、自動運転における認識タスクを簡単に紹介します。

セクション III では、下流モデルへの入力として使用されるすべてのデータ形式を要約します。カメラ クラスとは異なり、LIDAR クラスの入力形式は、手動で設計されたさまざまな機能や表現など、異なる場合があります。

次に、セクション IV で融合方法について詳しく説明します。これは革新的で明確な分類法であり、従来の方法と比較して、現在のすべての研究を 2 つの大きなカテゴリと 4 つのサブカテゴリに分類します。

セクション V では、自動運転におけるマルチセンサー フュージョンに関するいくつかの残された問題、研究の機会、および将来の可能性についての詳細な分析を提供します。セクション VI でこの文書は終了します。

02 クエストとオープンコンペティション

このセクションではまず、自動運転における一般的な認識タスクを紹介します。その後、広く使用されているオープン ベンチマーク データセットをいくつか紹介します。

2.1 マルチセンサーフュージョン知覚タスク

一般に、知覚タスクには、オブジェクト検出、セマンティック セグメンテーション、深度補完、予測などが含まれます [26、71]。ここでは、最初の 2 つのタスクを主な研究領域とみなします。さらに、障害物の検出、信号機、交通標識、車線や空きスペースのセグメンテーションなどのタスクも含まれます。残りのタスクについても簡単に説明しました。自動運転における知覚タスクの概要を図 1 に示します。

ターゲットの検出

自動運転には周囲の環境を理解することが重要です。自動運転車は安全な運転のために、道路上の静止障害物と移動障害物を検出する必要があります。物体検出は、自動運転システムで広く使用されている従来のコンピュータ ビジョン タスクです [61、108]。研究者は、障害物 (自動車、歩行者、自転車など) の検出、信号機の検出、交通標識の検出などのためのフレームワークを構築しました。

一般に、物体検出では、パラメータで表される長方形または立方体を使用して、位置特定と分類の両方に優れている必要がある、車や歩行者などの事前定義されたカテゴリのインスタンスを緊密にバインドします。奥行き情報が欠如しているため、2D オブジェクト検出は通常 (x, y, h, w, c) として単純に表現されますが、3D オブジェクト検出は通常 (x, y, z, h, w, l, θ) として表現されます。 、c)。

セマンティックセグメンテーション

物体検出に加えて、多くの自動運転認識タスクはセマンティック セグメンテーションとして定式化できます。たとえば、自由空間検出 [35、57、107] は、地上ピクセルを駆動可能な部分と駆動不可能な部分に分類する多くの自動運転システムの基本的な構成要素です。一部の車線検出 [24、84] 方法では、道路上のさまざまな車線を表すためにマルチクラスのセマンティック セグメンテーション マスクも使用します。

セマンティック セグメンテーションの本質は、入力データの基本コンポーネント (ピクセルや 3D ポイントなど) を、特定のセマンティック情報を含む複数の領域に集約することです。具体的には、セマンティック セグメンテーションには、画像ピクセルや LiDAR 3D 点群などの一連のデータと、事前定義された候補ラベルのセットが与えられます。モデルを使用して、各ピクセルまたは点に k 個のセマンティック ラベルを割り当てます。確率。

その他の知覚タスク

前述の物体検出とセマンティック セグメンテーションに加えて、自動運転における認識タスクには、物体分類 [44]、深度補完と予測 [26]も含まれます。ターゲット分類は主に、モデルを介して特定の点群または画像を通じてカテゴリを決定する問題を解決します。深度完了タスクと予測タスクは、LIDAR 点群と画像データが与えられた画像内の各ピクセルと観測者の間の距離を予測することに重点を置いています。マルチモーダル情報はこれらのタスクに役立つ可能性がありますが、まだ広く議論されていません。したがって、この記事ではこれら 2 つの部分を省略することにします。

さらに、他の多くの認識タスクはこの文書では取り上げていませんが、ほとんどはオブジェクト検出またはセマンティック セグメンテーションの変形と考えることができます。したがって、この文書では主にこれら 2 つの側面に焦点を当てます。

図 1. マルチセンサー融合モデルに基づく自動運転知覚タスク

2.2 公開コンテストとデータセット

自動運転知覚に関連するデータセットは 10 個以上 [7、10、27、30、47、50、52、56、58、64、71、80、88、93、94、97、101] ありますが、一般的に使用されるデータセットは KITTI [26]、Waymo [71]、および nuScenes [6] の 3 つだけです。ここで、これらのデータセットの詳細な特徴を表 1 にまとめます。

KITTI [26] オープン ベンチマーク データセットは、自動運転で最も一般的に使用される物体検出データセットの 1 つであり、2D、3D、鳥瞰図が含まれています。4 台の高解像度カメラ、Velo-dyne レーザー スキャナー、最先端の位置特定システムを備えた KITTI は、7,481 枚のトレーニング画像と 7,518 枚のテスト画像、および対応する点群データを収集しました。車、歩行者、自転車などのラベルが付いた 3D オブジェクトが 20 万個以上あり、これらのオブジェクトの検出難易度は、簡単、中、難しいの 3 つのカテゴリに分類されています。したがって、KITTI オブジェクト検出では、モデルの機能を比較するためにその平均精度がよく使用されます。さらに、平均方向類似度は、オブジェクトの共同検出とその 3D 方向の推定のパフォーマンスを評価するためにも使用されます。

Waymo [71] オープン データセットは、自動運転ベンチマーク用の最大のオープン データセットの 1 つで、5 つの LIDAR センサーと 5 つの高解像度ピンホール カメラによって収集されます。具体的には、トレーニング用に 798 シーン、検証用に 202 シーン、テスト用に 150 シーンがあります。各シーンは 20 秒続き、車両、自転車、歩行者の注釈が付けられます。3D オブジェクト検出タスクを評価するために、Waymo は 4 つの指標 (AP/L1、APH/L1、AP/L2、APH/L2) で構成されています。AP と APH は 2 つの異なるパフォーマンス指標を表し、L1 と L2 には異なる検出難易度を持つオブジェクトが含まれています。APH については、AP と同様に計算されますが、方位精度によって重み付けされます。

NuScenes [6] オープン データセットには 1000 の運転シーンが含まれており、そのうち 700 がトレーニングに、150 が検証に、150 がテストに使用されます。nuScenes にはカメラ、LIDAR、レーダー センサーが装備されており、さまざまな種類の車両、歩行者、その他の人々を含む 23 のオブジェクト カテゴリに各キーフレームに注釈を付けることができます。NuScenes は、パフォーマンスの評価と検出に AP と TP を使用します。さらに、NuScenes は、AP、TP ごとに異なるエラー タイプを分離することによって計算される、カーネル シーン検出スコア (NDS) として新しいスカラー スコアを提案します。

03 LIDARと画像の表現

深層学習モデルのパフォーマンスは、入力データの表現によって大きく影響される可能性があります。モデルを実装するには、生データをモデルに入力する前に、適切に設計された特徴抽出機能を使用して生データを前処理する必要があります。したがって、最初に LIDAR と画像データの表現を紹介し、後のセクションで融合方法とモデルについて説明します。

画像ブランチに関しては、ほとんどの既存のメソッドは、下流モジュールに入力される生データと同じ形式を維持します [81]。ただし、LIDAR ブランチはデータ形式 [44] に大きく依存しており、さまざまなプロパティが強調され、下流のモデル設計に大きな影響を与えます。したがって、異種の深層学習モデルに対応するために、点、ボクセル、2D マップに基づく点群データ形式に分割します。

表 1 一般的なオープン データセットとベンチマークの概要

 3.1 画像表現

2D データ取得または 3D オブジェクト検出およびセマンティック セグメンテーション タスクで最も一般的に使用されるセンサーとして、単眼カメラは豊富な RGB 画像テクスチャ情報を提供します [2、36、86]。具体的には、画像ピクセル (u、v) ごとにマルチチャネル特徴ベクトルがあり、通常、赤、青、緑のチャネルに分解されたカメラでキャプチャされた色、またはグレースケール チャネルとして手動で設計されたその他の特徴が含まれています。

限られた奥行き情報を単眼カメラで抽出するのは難しいため、3D 空間内のオブジェクトを直接検出することは非常に困難です。したがって、多くの研究 [11、43、103] では、双眼またはステレオ カメラ システムを使用して、空間と時間を通じて深度推定、オプティカル フローなどの 3D オブジェクト検出のためのより多くの情報を取得しています。夜間や霧の天候などの特殊な運転環境では、堅牢性を向上させるためにゲート付きカメラや赤外線カメラを使用する作品もあります [4]。

3.2 ポイントベースの点群表現

3D 認識センサーに関しては、LIDAR はレーザー システムを使用して環境をスキャンし、点群を生成します。レーザー光線と不透明な物体の表面の交差点を記録する世界座標系のデータ ポイントをサンプリングします。一般に、ほとんどの LIDAR 生データは (x、y、z、r) のような四元数であり、r は各点の反射率を表します。テクスチャが異なると入力反射率も異なりますが、これはいくつかのタスクでより有益です [31]。

LiDAR データを組み込むために、一部の方法では、ポイントベースの特徴抽出バックボーンを介してポイントを直接使用します [61、62]。ただし、点の四元数表現には冗長性や速度の欠点があります。したがって、多くの研究者 [18、41、66、108] は、点群を下流のモジュールに入力する前に、点群をボクセルまたは 2D 投影に変換しようとしています。

3.3 ボクセルベースの点群表現

一部の作品は、3D 空間を = で示される 3D ボクセルに離散化することで 3D CNN を活用しています。各ボクセルは特徴ベクトルを表します。ボクセル化された立方体の中心線を表し、統計に基づいたローカル情報を表します。

局所密度は、局所ボクセル内の 3D ポイントの数によって定義される一般的に使用される特徴です [8、75]。ローカル オフセットは通常、点の実座標とローカル ボリュームの重心の間のオフセットとして定義されます。その他には、局所的な直線性や局所的な曲率が含まれる場合があります。

最近の研究では、円柱ベースのボクセル化 [91] など、より合理的な離散化方法が検討されている可能性がありますが、前述の点ベースの点群表現とは異なり、ボクセルベースの点群表現は非構造化点群の冗長性の削減を大幅に改善します [41] ]。さらに、知覚タスクは、3D スパース畳み込み技術を活用できるため、トレーニングが高速化されるだけでなく、精度も向上します [18、41]。

3.4 2D マッピングに基づく点群表現

新しいネットワーク構造を提案する代わりに、複雑な 2D CNN バックボーンを利用して点群をエンコードする作品もあります。具体的には、彼らは、カメラ プラン ビュー (CPM) と鳥瞰図ビュー (BEV) を含む 2 つの一般的なタイプとして LIDAR データを画像空間に投影しようとしました [41、96]。

CPM は、各 3D 点 (x、y、z) をカメラ座標系 (u、v) に投影することにより、外部キャリブレーションで取得できます。CPMはカメラ画像と同じフォーマットであるため、追加チャンネルとして使用することが可能です。ただし、投影後の LIDAR の解像度は低いため、CPM 内の多くのピクセルの特徴が破壊されます。この目的のために、特徴マップをアップサンプリングするいくつかの方法が提案されていますが、他の方法は提案されていません[39、49]。

LIDAR 情報を前向きの画像空間に直接投影する CPM とは異なり、BEV マッピングは上からのシーンのトップダウン ビューを提供します。検出タスクと位置特定タスクでは 2 つの理由でこれを使用します。第一に、フロントガラスの後ろに取り付けられたカメラとは異なり、ほとんどの LiDAR は、オクルージョンが少ないルーフ上に配置されています [26]; 第二に、すべてのオブジェクトは BEV の地面に配置されており、モデルは予測なしで長さと幅を変えることができます。歪みの存在 [26]。

もちろん、BEV コンポーネントは異なる場合があります。鳥瞰図の中には、高さ、密度、強度からポイントベースまたはボクセルベースの特徴に直接変換されるものもあります [12] が、特徴抽出モジュール [41] を通じて列内の LIDAR 情報から特徴を抽出するものもあります。

04 フュージョン法

このセクションでは、LiDAR とカメラ データのさまざまな融合方法を確認します。従来の分類の観点から、すべてのマルチモーダル データ融合手法は、データ レベルの融合 (初期融合)、機能レベルの融合 (深い融合)、およびオブジェクト レベルの融合 (後期融合) を含む 3 つのカテゴリに単純に分類できます [15] 、23、81]。

データレベル融合(初期融合)手法は、空間アライメントを通じてさまざまなモダリティの生のセンサーデータを直接融合します。特徴レベルの融合 (ディープ フュージョン) 手法では、連結または要素ごとの乗算を介して特徴空間内のクロスモーダル データを混合します。ターゲットレベルの融合手法では、各モダリティ モデルの予測が合成され、最終結果が作成されます。

ただし、最近の研究 [17、40、83、104、106] は、これら 3 つのカテゴリに直接分類することはできません。そこで、この論文では、すべての融合方法を強融合と弱い融合に分け、これら 2 つの方法について詳しく説明するという新しい分類法を提案します。この関係を図 2 に示します。

図2 融合手法の概要

性能比較のため、KITTI ベンチマークの 2 つの主要なタスク、すなわち 3D 検出と鳥瞰図オブジェクト検出に焦点を当てます. 表 2 と 3 に、それぞれ BEV デバイスと 3D デバイス向けの KI​​TTI における最近のマルチモーダル融合手法を示します。テストデータセット。

表 2 KITTI テスト データセットの BEV タスク結果の概要

 

表 3 KITTI テスト データセットの 3D タスク結果の概要

4.1 強力な融合

LIDAR とカメラのデータ表現のさまざまな組み合わせ段階に従って、強力な核融合を 4 つのカテゴリ、つまり初期核融合、深核融合、後期核融合、非対称核融合に分類します。強核融合は最も研究されている核融合法として、近年多くの優れた成果をあげています[55, 76, 77]。図 3 から、強融合における各小さなクラスがカメラ データではなく LIDAR 点群に大きく依存していることが簡単にわかります。これらの各問題について詳しく説明します。

図 3 強力な融合

初期の融合。データレベル融合は、生データレベルでの空間的位置合わせと投影を通じて、各モダリティのデータを直接融合する方法です. 早期融合は、従来のデータレベル融合の定義とは異なります. 早期融合は、データレベルでLiDARデータを融合することであり、データレベルまたは機能レベルでのカメラデータの融合。図 4 は、初期融合のモデルの例です。

図 4 初期融合の例

前述の LiDAR ブランチでは、点群は、反射のある 3D 点、ボクセル化されたテンソル、正面図/距離図/鳥瞰図、および擬似点群の形式で使用できます。これらのデータはすべて、後者の LiDAR バックボーンと高度に相関する異なる固有の特性を持っていますが、擬似点雲を除くほとんどのデータはルールベースの処理によって生成されます [79]。さらに、この段階のデータは埋め込み特徴空間と比較してまだ解釈可能なため、LiDAR のこれらすべてのデータ表現は視覚化できます。

画像パスの場合、厳密なデータ レベル定義では RGB やグレーなどのデータしか含めることができず、汎用性や合理性に欠けます。初期融合の従来の定義と比較して、カメラ データをデータ レベルおよび特徴レベルのデータに緩和します。特に、これらの「オブジェクト レベル」の特徴はタスク全体の最終的なオブジェクト レベルの提案とは異なるため、画像内のセマンティック セグメンテーション タスクの結果を特徴レベルの表現として使用します。これは 3D オブジェクトの検出に有益です。

参考文献 [76] および [90] では、画像ブランチと生の LIDAR 点群からのセマンティック特徴を融合して、物体検出タスクのパフォーマンスを向上させています。参考文献 [68] および [20] もセマンティック機能を利用していますが、上記の方法とは異なり、生の LiDAR 点群をボクセル化されたテンソルに前処理して、より高度な LiDAR バックボーンをさらに利用します。参考文献 [54] は、3D LIDAR 点群を 2D 画像に変換し、成熟した CNN テクノロジーを利用して画像内の特徴レベルの表現を融合して、より優れたパフォーマンスを実現します。参考文献 [87] では生の RGB ピクセルとボクセル化されたテンソルを融合し、参考文献 [79] では画像から生成された擬似点群と LIDAR ブランチによって生成された元の点群を直接結合して、物体検出タスクを完了します。

VoxelNet [108] に基づいて、[69] は、対応するピクセルの画像特徴ベクトルをボクセル化ベクトルに直接追加するポイント フュージョン法を提案しました。参考文献 [92] は、各元の点を画像ブランチのグローバルな特徴と接続する高密度融合を提案しています。文献 [53] では、CNN を使用した 2D 歩行者検出に焦点を当てています。

初期融合として、CNN にフィードする前に、さまざまなブランチを直接融合します。参考文献 [105] では、画像の特徴を LiDAR 点群のボクセル化されたテンソルに融合するための点注意融合法が提案されています。

深い統合ディープ フュージョン手法では、クロスモーダル データを LiDAR ブランチの特徴レベルで融合し、画像ブランチのデータ レベルと特徴レベルで融合します。たとえば、一部の方法では、特徴抽出器を使用して、LiDAR 点群とカメラ画像の埋め込み表現を個別に取得し、一連のダウンストリーム モジュールを通じて特徴を 2 つのモダリティに融合します [32、102]。ただし、他の強力な融合手法とは異なり、ディープ フュージョンはカスケード方式で機能を融合することがあります [4、32、46]。これにより、元の意味情報と高レベルの意味情報の両方が活用されます。図 5 のモデルは深層融合の例です。

図 5 ディープフュージョンの例

[92] では、画像ブランチからのグローバル フィーチャとのグローバル フュージョンが、追加のグローバル LIDAR フィーチャを使用して提案されています。参考文献 [69] では、ROI マージ画像特徴ベクトルを LIDAR 点群の各ボクセルの密な特徴ベクトルに追加するボクセル融合など、他の融合方法が提案されています。[105] は、複数のブランチからの疑似画像を融合する、高密度注意融合と呼ばれる別の方法を提案しました。文献[45, 49]はそれぞれ深融合法を提案している。EPNet [32] ディープ LiDAR 画像融合は、ノイズの影響を軽減するために、対応する画像特徴の重要性を評価します。文献 [4] には、異常気象下で設定されたマルチモーダル データが示されており、各ブランチの深い融合が実行され、自動運転モデル​​のロバスト性が大幅に向上します。[9、14、16、22、37、46、73、78、85、102] を含む他のディープ フュージョン作品には、一見同一のフュージョン モジュールがあります。

後期融合後期フュージョンは、ターゲット レベルのフュージョンとも呼ばれ、パイプラインの各形式の結果を融合する方法を指します。たとえば、一部のポストフュージョン手法は、LiDAR 点群とカメラ画像からの出力を利用し、両方のモダリティの結果に基づいて最終予測を行います [55]。2 つの分岐スキームは最終結果と同じデータ形式を持つ必要がありますが、品質、量、精度が異なることに注意してください。後期融合は、マルチモーダル情報を利用して最終的なソリューションを最適化するアンサンブル手法と見なすことができます。図 6 は後期融合の例です。

図 6 後期融合の例

前述したように、文献 [55] では遅延融合を使用して、画像ブランチの 2D プロポーザルと LiDAR ブランチの 3D プロポーザルを結合し、各 3D 領域プロポーザルの結果を二次的に調整します。さらに、重複領域ごとに、信頼度、距離、IoU などの統計的特徴が使用されます。文献 [1] は 2D オブジェクト検出に焦点を当てており、2 つのブランチからの提案と信頼スコアなどの特徴を組み合わせて、最終的な IoU スコアを出力します。参考文献 [29]、[28] では、セグメンテーションの結果を組み合わせることによって道路検出の問題を解決しています。[53] の後期融合として、同じ 3D 検出スキームのさまざまなブランチの結果を 1 つの最終結果に集約します。

非対称融合初期融合、ディープ融合、後期融合に加えて、異なる権限で異なるモーダル情報を処理するメソッドがあるため、1 つのブランチからのターゲット レベルの情報と、他のブランチからのデータ レベルまたは機能レベルの情報の融合を定義します。方法は非対称融合です。2 つのブランチを一見同等のステータスで扱う強力な融合とは異なり、非対称融合では少なくとも 1 つのブランチが優勢になり、他のブランチは最終タスクを実行するための補助情報を提供します。後期融合の例を図 7 に示します。特に、後期融合には同じ抽出された特徴があるにもかかわらず、1 つの分岐からの提案しかない [55] のに対し、後期融合にはすべての分岐からの提案が含まれると比較されます。

図 7 非対称融合の例

この融合方法は合理的です。なぜなら、カメラ データに CNN を使用すると、点群内の意味的に役に立たない点をフィルタリングでき、錐台の観点から 3D LiDAR バックボーンのパフォーマンスを向上させることができ ([106] のように)、優れたパフォーマンスが得られるからです。元の点群内の錐台と、対応するピクセルの RGB 情報を抽出します。これらは、3D バウンディング ボックスのパラメーターを決定するために使用されます。ただし、一部の作品では、既成概念にとらわれずに考え、LiDAR バックボーンを使用してマルチビュー スタイルで 2D バックボーンをガイドし、より高い精度を実現しています。文献 [40] は、3D 検出スキームに基づいて多視点画像を抽出することによる歩行者検出に焦点を当てており、CNN をさらに利用して以前のスキームを改良しています。参考文献 [12][17] は、LIDAR ブランチおよび ROI 特徴を持つ他のブランチの個々の予測のための 3D 提案を改良しています。文献 [5] は 2D 検出に焦点を当てており、LIDAR ブランチからの 3D 領域提案を利用し、さらに改良するために画像特徴だけでなく 2D 提案に再投影しています。文献 [11] では、統計情報とルールベースの情報を通じて 3D 潜在バウンディング ボックスを提案し、画像の特徴を組み合わせて、最終的な 3D 提案を出力します。文献[70]は、特別に収集されたデータセットを使用して行われる小さなオブジェクトの検出に焦点を当てており、これは本質的に2Dセマンティックセグメンテーションタスクであり、LiDARの結果と生のRGB画像を組み合わせて最終結果を出力します。

4.2 弱い融合

強い融合とは異なり、弱い融合方法は、マルチモーダル ブランチからのデータ/機能/オブジェクトを直接融合せず、他の方法でデータを操作します。弱い融合ベースのアプローチは通常、ルールベースのアプローチを使用して、あるモダリティのデータを監視信号として利用し、別のモダリティの相互作用をガイドします。図 8 は、弱核融合モデルの基本的な枠組みを示しています。たとえば、CNN 画像ブランチの 2D スキームは、生の LIDAR 点群に直接錐台を生成する可能性があります。ただし、前述の非対称フュージョンへの画像特徴の組み合わせとは異なり、弱いフュージョンは、選択された生の LiDAR 点群を LiDAR バックボーンに直接フィードして、最終結果を出力します [60]。

図8 弱核融合の基本枠組み

文献 [83] では、各セクション ボリュームを固定の選択ストライドでいくつかの部分に分割することでこの技術を進歩させており、3D 検出精度がさらに向上しています。文献 [104] は、長距離のまばらな点群オブジェクトの検出に焦点を当てています。文献 [99] では、セマンティック セグメンテーションの結果から錐台内の LiDAR 点群のすべての背景点をフィルタリングして除去し、画像を生成しています。文献 [72] は半教師あり転移学習に焦点を当てており、2D 画像スキームに基づいて錐台が提案されています。

4.3 他の融合方法

一部の作品は、深部融合と後期融合[39]の組み合わせなど、モデルフレームワーク全体に複数の融合手法が含まれているため、単純に上記の融合手法のいずれかとして定義することはできませんが、文献[77]では初期融合手法を組み合わせています。フュージョンとディープフュージョンが組み合わされます。これらのメソッドはモデル設計ビューでは冗長であり、フュージョン モジュールでは主流ではありません。

05 マルチモーダル融合の機会

近年、自動運転知覚タスクのためのマルチモーダル融合手法は、より高レベルの特徴表現からより複雑な深層学習モデルに至るまで、急速な発展を遂げています[15、81]。それでも、まだ解決すべき未解決の疑問がいくつかあります。ここでは、将来行う必要があるいくつかの重要かつ基本的な作業を次の側面にまとめます。

5.1 より高度な融合手法

現在の融合モデルは位置ずれと情報損失に悩まされています [13、67、98]。さらに、フラット フュージョン操作 [20、76] も、知覚タスクのさらなるパフォーマンス向上を妨げます。私たちはそれを 2 つの側面、すなわち位置ずれと情報損失、およびより合理的な融合操作に一般化します。

位置ずれと情報の損失

カメラとライダーは内部と外部では大きく異なります。どちらの方法でも、新しい座標系でデータを再編成する必要があります。従来の初期およびディープフュージョン手法は、外部キャリブレーションマトリックスを利用して、すべての LIDAR ポイントを対応するピクセルに直接投影し、その逆も同様です [54、69、76]。ただし、このピクセルごとの位置合わせは、知覚ノイズが存在するため、十分に正確ではありません。したがって、この厳密なコミュニケーションに加えて、周囲の情報を補助的に活用する作業 [90] がパフォーマンスの向上につながることがわかります。

さらに、入力空間と特徴空間の変換プロセス中に他の情報が失われます。通常、投影次元削減操作では、たとえば 3D LiDAR 点群を 2D BEV 画像にマッピングするなど、必然的に大量の情報損失が発生します。したがって、将来の研究では、2 つのモダリティ データを融合用に特別に設計された別の高次元表現にマッピングすることで、元のデータを効果的に利用し、情報損失を減らすことができます。

より合理的な融合操作

現在の研究作業では、連結や要素ごとの乗算など、直観的な方法を使用してクロスモーダル データを融合しています [69、77]。これらの単純な操作では、大きく異なる分布を持つデータを融合できない可能性があり、2 つのモダリティ間の意味論的なギャップを埋めることが困難になります。一部の研究では、より微細なカスケード構造を使用してデータを融合し、パフォーマンスを向上させようとしています [12、46]。将来の研究では、双線形マッピング [3、25、38] などのメカニズムにより、異なる特性を持つ特徴を融合できるようになります。

5.2 マルチソース情報の活用

正面図の単一フレームの問題は、自動運転の知覚タスクの典型的なシナリオです [26]。ただし、ほとんどのフレームワークでは、限られた情報を利用して運転シナリオをさらに理解するための補助タスクが慎重に設計されていません。私たちはこれを、より潜在的に有用な情報と自己監視を伴う表現学習として一般化します。

より有用な可能性のある情報を持っている

既存の方法 [81] には、複数の側面や情報源からの情報を効果的に利用することができません。それらのほとんどは、正面図の単一のマルチモーダル データ フレームに焦点を当てています。したがって、意味論的情報、空間情報、シーンのコンテキスト情報など、他の意味のある情報は十分に活用されていません。

一部のモデル [20、76、90] は、画像セマンティック セグメンテーション タスクの結果を追加の特徴として使用しようとしますが、他のモデルは、特定の下流タスクでトレーニングされているかどうかに関係なく、ニューラル ネットワーク バックボーンの中間層からの特徴を利用する可能性があります [46] ]。自動運転シナリオでは、明示的なセマンティック情報を含む多くの下流タスクにより、物体検出タスクのパフォーマンスが大幅に向上する可能性があります。たとえば、車線検出は、車線間の車両を検出するための追加の支援を直感的に提供でき、セマンティック セグメンテーションの結果により、物体検出パフォーマンスを向上させることができます [20、76、90]。したがって、将来の研究では、車線、信号機、標識などのさまざまな下流タスクを検出して知覚タスクの実行を支援することにより、都市シーンの完全な意味理解フレームワークを共同で構築することができます。

さらに、現在の知覚タスクは主に、時間情報を無視した単一のフレームに依存しています。最近の LiDAR ベースの方法 [63] は、フレームのシーケンスを結合してパフォーマンスを向上させます。時系列情報にはシリアル化された監視信号が含まれるため、個別のフレームを使用する方法と比較して、より信頼性の高い結果が得られます。

したがって、将来の研究では、時間的、文脈的、空間的な情報をより深く活用して、革新的なモデル設計を通じて継続的なフレームワークを達成する可能性があります。

表現学習のための自己監視

相互監視信号は、同じ現実世界のシーンの、異なる角度でサンプリングされたクロスモーダル データに当然存在します。ただし、データの深い理解が不足しているため、現在の方法では各パターン間の相互関係を掘り出すことができません。

将来的には、事前トレーニング、微調整、または対照学習を含む自己教師あり学習にマルチモーダル データを使用する方法に研究が焦点を当てます。これらの最先端のメカニズムを実装することにより、フュージョンモデルはデータの理解を深め、より良い結果を達成するでしょう。これは、自動運転の認識の余地を残しながら、他の分野でもいくつかの有望な兆候を示しています[48]。

5.3 知覚センサーの固有の問題

ドメイン バイアス、解像度は実際のシーンやセンサーと高度に相関しています [26]。これらの予期せぬ欠陥は、自動運転用の深層学習モデルの大規模なトレーニングと実装を妨げており、今後の作業で対処する必要があります。

データドメインのバイアス

自動運転の認識シナリオでは、さまざまなセンサーによって抽出された生データには、ドメインに大きく依存する特徴が伴います。カメラ システムにはさまざまな光学系があり、ライダーは機械式ライダーからソリッドステート ライダーまでさまざまです。さらに、データが同じセンサーで取得された場合でも、データ自体には天気、季節、場所などの地域的な偏りがある可能性があります [6、71]。したがって、検出モデルは新しいシナリオにうまく適応できません。これらの欠陥により、一般化の失敗により、大規模なデータセットの収集や生のトレーニング データの再利用が妨げられます。したがって、今後の作業では、地域的な偏りを排除し、さまざまなデータソースを適応的に統合する方法を見つけることが重要です。

データ解析との競合

通常、異なるモードのセンサーは異なる解像度を持っています [42、100]。たとえば、LIDAR は画像に比べて空間密度が大幅に低くなります。使用される投影法に関係なく、対応するものが見つからないため、一部の情報は削除されます。これにより、特徴ベクトルの解像度の違いや生の情報の不均衡が原因で、モデルがデータの 1 つの特定のモダリティによって支配される可能性があります。したがって、将来の研究では、異なる空間解像度のセンサーと互換性のある新しいデータ表現システムを探索する可能性があります。

06 まとめ

この論文では、自動運転知覚のためのマルチセンサー フュージョンに関する 50 以上の関連論文を精査します。具体的には、まず、融合の観点からより合理的な分類法によってこれらの論文を3つのカテゴリーに分類するという革新的なアプローチを提案します。次に、LiDAR とカメラのデータ形式と表現を詳しく調べ、さまざまなプロパティを要約します。最後に、マルチセンサー フュージョンに存在する問題が詳細に分析され、将来の研究作業に役立つ可能性のあるいくつかの新しい方向性が紹介されます。

おすすめ

転載: blog.csdn.net/weixin_40359938/article/details/127259979