論文の閲覧: EPNet: 3D オブジェクト検出のための ImageSemantics によるポイント機能の強化

EPNet: 3D オブジェクト検出のための画像セマンティクスによるポイント機能の強化

2020ECCV

コードアドレス: https://github.com/happinesslz/EPNet
論文アドレス: https://arxiv.org/pdf/2007.08856.pdf

0. 概要:

        このペーパーは、複数のセンサー (つまり、LiDAR 点群とカメラ画像)、および位置特定と分類の信頼性の間の不一致を含む 3D 検出タスクにおける 2 つの重要な問題に対処することを目的としています。この目的を達成するために、画像の注釈を追加することなく、ポイントごとに画像の意味論的特徴を強化する新しい融合モジュールを提案します。さらに、位置特定と分類の信頼性の一貫性は、コヒーレンス強制損失の方法によって明示的に促進されます。これら 2 つのコンポーネントを統合するために、エンドツーエンドの学習可能な EPNet フレームワークを設計します。KITTI および SUN-RGBD データセットに関する広範な実験により、最先端の方法と比較した EPNet の優位性が実証されました。コードとモデルは https://github.com/happinesslz/EPNet で入手できます。

        ただし、LIDAR とカメラの画像の表現を融合することは、2 つの理由から簡単な作業ではありません。一方で、これらは大きく異なるデータ特性を持っています。一方、カメラ画像は照明やオクルージョンなどの影響を受けやすいため (図 1(b) に示すように)、ノイズ情報が混入する可能性があり、3D オブジェクト検出タスクに有害です。これまでの研究では、通常、画像の注釈 (つまり 2D 境界ボックス) を利用してこれら 2 つのセンサーを融合していました。センサーを利用するさまざまな方法に従って、我々はこれまでの研究を 2 つのカテゴリにグループ化します、1) 異なる段階で異なるセンサーを使用するカスケード手法[27、37、42]、および 2)マルチセンサー入力について共同で推論する融合。 17、18]。これらの方法は効果的ではありますが、いくつかの制限があります。カスケード方式では、異なるセンサー間の相補性を利用できず、そのパフォーマンスは各段階によって制限されます。融合法 [17、18] では、透視投影とボクセル化を通じて BEV データを生成する必要があり、必然的に情報損失が発生します。さらに、ボクセル単位の特徴と画像の意味論的な特徴の間の比較的大まかな対応関係を近似的に確立することしかできません。上記の 2 つの問題に対処するために、LiDAR 誘導画像融合( LI-Fusion ) モジュールを提案します。LI-Fusion モジュールは、元の点群データとカメラ画像の間の対応をポイントごとに確立し、画像の意味論的特徴の重要性を適応的に推定します。この方法では、有用な画像特徴を利用して点特徴を強調し、邪魔な画像特徴を抑制します。以前の方法と比較して、この方法には4 つの主な利点があります: 1) 複雑な BEV データ生成プロセスを必要とせず、より単純なパイプラインを通じて LIDAR とカメラ画像データのきめ細かい点の対応が実現されます; 2) 元のジオメトリが保存され、損失がありません3) カメラ画像によってもたらされる可能性のある干渉情報の問題を解決する; 4) 以前の研究 [27, 18] と比較して、画像アノテーション、つまり 2D バウンディング ボックス アノテーションがありません。

        マルチセンサー フュージョンに加えて、物体が境界ボックス内に存在するかどうか、およびそれがグラウンド トゥルースとどの程度重なり合っているかを表す、分類信頼度と位置推定信頼度の間の不一致も観察されます。図 1(c) に示すように、分類の信頼度が高い境界ボックスは、代わりに位置特定の信頼度が低くなります。非最大抑制 (NMS) プロセスでは、重複が大きい​​が分類の信頼性が低いボックスが自動的に除外されるため、この不一致は検出パフォーマンスの低下につながります。ただし、3D 検出タスクでは、この問題はほとんど議論されません。Jiang らは、NMS プロセスを改善することでこの問題を軽減しようとしました。彼らは、位置推定の信頼度を予測する新しいブランチを導入し、NMS プロセスのしきい値を分類の信頼度と位置推定の信頼度の積に置き換えます。これはある程度機能しますが、これら 2 つの信頼の一貫性を強制する明示的な制約はありません。[9] とは異なり、これら 2 つの信頼の一貫性を明示的に保証する一貫性強制損失 (CE 損失) を提案します。これを利用すると、分類の信頼度が高いボックスは、グラウンド トゥルースとの重複が大きくなり、その逆も同様になります。このアプローチには 2 つの利点があります。まず、私たちのソリューションは、検出ネットワークのアーキテクチャを変更することなく簡単に実装できます第 2 に、私たちのソリューションは学習可能なパラメーターや追加の推論時間のオーバーヘッドをまったく必要としません。

私たちの主な貢献は次のとおりです

1. 当社の LI-Fusion モジュールは、LIDAR ポイントとカメラ画像を直接処理し、画像アノテーションを追加することなく、対応するセマンティック画像特徴をポイントの形式で使用することにより、ポイント特徴を効果的に強化します。

2. 分類と位置特定の信頼性の間の一貫性を向上させ、より正確な検出結果をもたらすために CE 損失を提案します。

3. LI-Fusion モジュールと CE 損失を新しいフレームワーク EPNet に統合し、一般的に使用される 2 つの 3D 物体検出ベンチマーク データセット、KITTI データセット [6] と SUN-RGBD データセット [33] で取得しました。最先端の結果。

2 関連作品

カメラ画像からの 3D オブジェクト検出最近の 3D 物体検出方法は、単眼画像 [23, 29, 12, 15, 20] やステレオ画像 [16, 35] などのカメラ画像に主に焦点を当てています。Chen et al. [1] は、CNN ベースのオブジェクト検出器を利用して 2D 境界ボックスを取得し、セマンティック情報、コンテキスト情報、および形状情報を使用して、対応する 3D 境界ボックスを推測します。Mousavian らは、射影幾何学的制約を利用して、オブジェクトの 2D 境界ボックスから位置と方向を推定します。ただし、カメラ画像ベースの方法では、深さ情報が不足しているため、正確な 3D バウンディング ボックスを生成するのが困難です。

LIDAR ベースの 3D オブジェクト検出。近年、多くの LIDAR ベースの方法が提案されています [39、24、40]。VoxelNet [43] は、点群をボクセルに分割し、スタックされたボクセル特徴エンコード層を使用してボクセル特徴を抽出します。2 つ目 [38] では、スパース畳み込み演算が導入されており、[43] の計算効率が向上します。PointPillars [14] は、点群を偽の画像に変換し、時間のかかる 3D 畳み込み演算を排除します。PointRCNN [31] は、領域提案ネットワーク (RPN) とリファインメント ネットワークで構成される独創的な 2 段階の検出器です。RPN ネットワークは前景点を予測し、粗い境界ボックスを出力します。その後、この境界ボックスはリファインメント ネットワークによってリファインされます。ただし、LIDAR データは非常に不足していることが多く、正確な位置特定には課題が生じます。

マルチセンサーベースの 3D オブジェクト検出。近年、カメラ画像やLiDARなどのマルチセンサーの開発が大きく進んでいます。Qi ら [27] は、最初にカメラ画像から 2D プロポーザルを生成し、次に LiDAR 点群から対応する 3D ボックスを生成する F-PointNet カスケード方式を提案しました。ただし、カスケード手法には追加の 2D アノテーションが必要であり、そのパフォーマンスは 2D 検出器によって制限されます。多くのアプローチは、カメラ画像と BEV に対して共同推論を実行しようとします。MV3D [3] と AVOD [11] は、各 ROI 領域の BEV とカメラの特徴マップを融合することで検出ボックスを改良しています。Confusion [18] は、BEV と画像特徴マップのボクセル方向の位置合わせを実現する新しい連続融合レイヤーを提案しています。以前の作品とは異なり、LI-Fusion モジュールは LIDAR データを直接操作し、LIDAR とカメラ画像の特徴間のよりきめの細かい点ごとの対応関係を確立します。

3つの方法

        複数のセンサーからの相補的な情報を利用することは、正確な 3D オブジェクト検出にとって非常に重要です。さらに、この方法は、位置特定と分類の信頼性の不一致によって引き起こされるパフォーマンスのボトルネックを解決するためにも非常に重要です。

        本稿では、これら 2 つの側面から 3D 検出性能を向上させるための新しいフレームワーク EPNetを提案します。EPNet は、提案生成用の 2 ストリーム RPN とバウンディング ボックス最適化用のリファインメント ネットワークで構成されており、エンドツーエンドでトレーニングできます。2 ストリーム RPN は、LI-Fusion モジュールを通じて LIDAR ポイント機能とセマンティック イメージ機能を効果的に組み合わせます。さらに、分類とローカリゼーションの信頼性の間の一貫性を向上させるために、一貫性強制損失 (CE 損失) が提供されます。以下では、デュアルストリーム RPN とリファインメント ネットワークの詳細をそれぞれセクション 3.1 とセクション 3.2 で説明します。次に、セクション 3.4 で CE 損失と全体的な損失関数について詳しく説明します。

3.1 デュアルストリーム RPN

2 ストリーム RPN は、ジオメトリ ストリームとイメージ ストリームで構成されます。図 2 に示すように、ジオメトリ ストリームと画像ストリームはそれぞれ点特徴と意味論的画像特徴を生成します。複数の LI-Fusion モジュールを使用して、異なるスケールで対応する意味論的な画像特徴を使用して点特徴を強化し、より識別力のある特徴表現を実現します。

図Ⅱ.ジオメトリ ストリームとイメージ ストリームで構成される2 ストリーム RPN のアーキテクチャ。LIDAR ポイント特徴と対応するセマンティック画像特徴は、LI-Fusion モジュールを使用して複数のスケールで強化されます。N は LiDAR ポイントの数です。H と W は、それぞれ入力カメラ画像の高さと幅を示します。

画像ストリーム。画像ストリームはカメラ画像を入力として受け取り、一連の畳み込み演算を通じて画像の意味情報を抽出します。4 つの軽量畳み込みブロックで構成される特に単純な構造を採用しています。各畳み込みブロックは、2 つの 3x3 畳み込み層、バッチ正規化層 [8]、および ReLU 活性化関数で構成されます。各ブロックの 2 番目の畳み込み層のステップ サイズを 2 に設定して、受信フィールドを拡張し、GPU メモリを節約します。Fi (i=1,2,3,4) は、これら 4 つの畳み込みブロックの出力を示します。図 2 に示すように、Fi は、さまざまなスケールで LiDAR ポイントの特徴を強化するのに十分なセマンティック画像情報を提供します。さらに、異なるストライドを持つ 4 つの並列転置畳み込み層を使用して画像解像度を復元し、元の画像と同じサイズの特徴マップが得られます。これらを連結して、さまざまな受容野を持つ豊富な意味論的な画像情報を含む、より代表的なフーリエ特徴マップを取得します。後で示すように、機能マップは、F_{U}LiDAR ポイントの機能を強化して、より正確な提案を生成するためにも使用されます。

幾何学的な流れ。ジオメトリ フローは、LiDAR 点群を入力として受け取り、3D プロポーザルを生成します。ジオメトリ フローは、特徴抽出のためのセット抽出 (SA) [28] レイヤーと特徴伝播 (FP) [28] レイヤーの 4 つのペアで構成されます。説明の便宜上、SA層およびFP層の出力をそれぞれSiおよびPi(i=1、2、3、4)と表記する。図2に示すように、LI-Fusionモジュールを利用して点特徴Siと意味画像特徴Fiを組み合わせます。さらに、点特徴 P4 はマルチスケール画像特徴でさらに強化され、F_{U}コンパクトで識別力のある特徴表現が得られます。この表現は、前景点セグメンテーションと 3D 提案生成のために検出ヘッドに送信されます。

 画像3。メッシュ ジェネレーター画像サンプラー、およびLI-Fusion レイヤー を含む LI-Fusion モジュールの概略図

LI-Fusionモジュール。LIDAR 誘導画像融合モジュールは、メッシュ ジェネレーター画像サンプラー、およびLI-Fusion レイヤーで構成されます。図 3 に示すように、LI-Fusion モジュールは、点ごとの対応生成と LIDAR 誘導融合の 2 つの部分で構成されます。具体的には、LiDAR ポイントをカメラ画像上に投影し、マッピング行列を M として示します。メッシュ ジェネレーターは、LiDAR 点群とマッピング行列 M を入力として受け取り、LiDAR 点とさまざまな解像度のカメラ画像の間のポイントごとの対応を出力します。具体的には、点群内の特定の点 p(x, y, z) について、カメラ画像内の対応する位置を取得できます。これは次のようにp^{'}(x^{'},y^{'})記述できます。

ここで、M のサイズは 3×4 です。なお、射影処理式(1)では、p^{'}と p を同次座標の 3 次元ベクトルと 4 次元ベクトルに変換しています。

        対応関係を確立した後、画像サンプラーを使用して各点の意味的特徴表現を取得することを提案します。具体的には、画像サンプラーはサンプリング位置p^{'}と画像特徴マップ F を入力として受け取り、各サンプリング位置に対して点ごとの画像特徴表現 V を生成します。サンプリング位置が隣接するピクセル間にある可能性があることを考慮して、双一次補間を使用して連続座標で画像特徴を取得します。これは次のように表現できます。

このうち、V(p)は点pに対応する画像特徴量、Kは双一次補間関数、F(N(p^{'}))はp^{'}サンプリング位置における隣接画素の画像特徴量である。

        カメラ画像は照明やオクルージョンなどの多くの要因の影響を受けるため、LIDAR 特徴と点単位の画像特徴を融合することは簡単ではありません。このような場合、点ごとの画像特徴によってノイズ情報が導入されます。この問題に対処するために、LIDAR ガイド付きフュージョン レイヤーを採用し、LIDAR 特徴を使用して点単位の方法で画像特徴の重要性を適応的に推定します図 3 に示すように、最初に LiDAR フィーチャ FP とポイントワイズ フィーチャ FI を完全に接続されたレイヤーにフィードし、それらを同じチャネルにマッピングします。次に、それらを合計してコンパクトな特徴表現を形成し、それを別の完全に接続された層によって単一チャネルの重みマップ w に圧縮します。シグモイド活性化関数を使用して、重みマップ w を範囲 [0,1] に正規化します。

 ここで、W、U、V は、LI-Fusion 層の学習可能な重み行列を示します。σ はシグモイド活性化関数です。

重みマップ w を取得した後、LiDAR 特徴 FP と意味論的画像特徴 FI を連結します。これは次のように表現できます。

(簡単にまとめると、融合された特徴によって重みが生成され、それが画像特徴の最終的な比率に影響します)

3.2 リファインメントネットワーク

        当社は NM​​S プロセスを使用して高品質の提案を維持し、それを改良ネットワークに供給します。各入力プロポーザルについて、2 ストリーム RPN の最後の SA 層にある対応する境界ボックス内の 512 個のポイントをランダムに選択することにより、その特徴記述子を生成します。512 ポイント未満のプロポーザルについては、単に記述子に 0 を埋め込みます。洗練されたネットワークは、コンパクトなグローバル記述子を抽出するための 3 つの SA レイヤーと 2 つのサブネットワーク、およびそれぞれ分類と回帰のための 2 つのカスケード 1×1 畳み込みレイヤーで構成されます。

3.3 損失を強制する一貫性 損失を強制する一貫性  

        一般的な 3D オブジェクト検出器は、通常、シーン内の実際のオブジェクトの数よりも多くの境界ボックスを生成します。高品質のボーダーをどのように選択するかは大きな課題です。NMS は、分類の信頼度に基づいて、要件を満たさない境界ボックスをフィルタリングしようとします。この場合、分類の信頼度は、境界の真実とグラウンドの真実の間の実際の IOU、つまり位置の信頼度の代理として機能できると仮定されます。ただし、分類の信頼度と位置特定の信頼度は矛盾していることが多く、その結果、パフォーマンスが低下します。

        このため、整合性強制損失を導入して、ローカライゼーションの信頼性と分類の信頼性の間の一貫性を確保し、ローカライゼーションの信頼性が高いボックスは分類の信頼性も高く、またその逆も同様であるようにする動機となります。一貫性強化損失は次のように記述されます。 

        ここで、D と G は、予測された境界ボックスとグラウンド トゥルースを示します。c は d の分類信頼度です。この損失関数を最適化するために、分類信頼度および位置特定信頼度 (つまり、IoU) は、D と G がそれぞれ予測された境界ボックスとグランド トゥルースを示します。c は d の分類信頼度です。この損失関数を最適化するために、分類信頼度および位置特定信頼度 (つまり、IoU) の両方を可能な限り高くすることをお勧めします。したがって、重なりが大きいボックスは分類確率が高く、NMS プロセスに保持されます。IOU損失関係。私たちの CE 損失は、定式化における IoU 損失 [41] に似ていますが、動機と役割は完全に異なります。IoU 損失は、IoU メトリックを最適化することでより正確な回帰を生成しようとしますが、CE 損失は、NMS プロセスがより正確な境界ボックスを維持できるように、位置特定と分類の信頼性の間の一貫性を確保することを目的としています。定式化は単純ですが、セクション 4.3 の定量的な結果と分析は、一貫性の保証と 3D 検出パフォーマンスの向上における CE 損失の有効性を示しています。

3.4 全体損失関数 全体損失関数   

        マルチタスク損失関数を使用した 2 ストリーム RPN とリファインメント ネットワークの共同最適化。総損失は次のように表すことができます。

この式では、Lrpn と Lrcnn は 2 ストリーム RPN と洗練されたネットワークのトレーニング目標を表し、2 ストリーム RPN と洗練されたネットワークの最適化目標は類似しており、分類損失、回帰損失、CE 損失が含まれます。分類損失として焦点損失 [19] を採用し、α = 0.25、γ = 2.0 の条件で正と負のサンプルのバランスを取ります。境界ボックスの場合、ネットワークはその中心点 (x、y、z)、サイズ (l、h、w)、および方向 θ を回帰する必要があります。

        y 軸 (垂直軸) の範囲は比較的小さいため、平滑化された L1 損失 [7] を直接使用して、グラウンド トゥルースからのオフセットを計算します。同様に、境界ボックスのサイズ (h、w、l) も、L1 損失を平滑化するために最適化されます。x 軸、z 軸、および方向 θ については、ビンベースの回帰損失 [31, 27] を採用します。各前景点について、その近傍をいくつかのビンに分割します。ビンベースの損失では、まず中心点がどのビンに該当するかを予測し、次にビン内の残りのオフセット ru を回帰します。損失関数の式は次のとおりです。

 4 実験

        KITTI データセット [6] と SUN-RGBD データセット [33] を使用してこの方法を評価します。KITTI は屋外のデータセットですが、SUN-RGBD は屋内シーンのデータセットです。次のサブセクション 4.1 では、まずこれらのデータセットを簡単に紹介します。次に、実装の詳細についてはサブセクション 4.2 で説明します。LI-Fusion モジュールと CE 損失の包括的な分析については、セクション 4.3 で説明します。最後に、KITTI データセットと SUN-RGBD データセットに関する最先端の手法との比較をそれぞれセクション 4.4 とセクション 4.5 で示します。

4.1 データセットと評価指標

KITTI データセットは自動運転用の標準ベンチマーク データセットで、7481 個のトレーニング フレームと 7518 個のテスト フレームが含まれています。[27、31] と同じデータセット分割プロトコルに従って、7,481 フレームがトレーニング用の 3,712 フレームと検証用の 3,769 フレームにさらに分割されます。私たちの実験では、簡単、中程度、難しいという 3 つの難易度すべての検証セットとテスト セットの結果を示します。オブジェクトは、サイズ、オクルージョン、トランケーションに基づいてさまざまな難易度に分かれています。

SUN-RGBDデータセットは、3D オブジェクト検出用の屋内ベンチマーク データセットです。データセットは 10,335 枚の画像と 700 個の注釈付きオブジェクト カテゴリで構成され、そのうち 5,285 枚の画像がトレーニングに使用され、5,050 枚の画像がテストに使用されます。以前の研究 [37、27] に従って、テスト セット内の 10 個の主要なオブジェクト カテゴリの結果を報告します。これらのカテゴリのオブジェクトは比較的大きいためです。

測定を行ってくださいKITTI データセットと SUN-RGBD データセットの公式評価プロトコルに従って、平均精度 (AP) をメトリクスとして採用します。最近、新しい評価プロトコル [32] が KITTI データセットに適用され、以前の 11 個のリコール位置の代わりに 40 個のリコール位置が使用されます。したがって、これはより公平な評価プロトコルです。この新しい評価スキームの下で、私たちの方法を最先端の方法と比較します。

4.2 実装の詳細

ネットワーク設定。2 ストリーム RPN は、LIDAR 点群とカメラ画像を入力として受け取ります。各 3D シーンについて、カメラ座標の X (右) 軸、Y (下) 軸、Z (前) 軸に沿った LiDAR 点群の距離は、[- 40,40]、[- 1,3]、[ 0、70.4]メートル。θ の方向は [-π, π] の範囲にあります。PointRCNN [31] と同じように、生の LiDAR 点群から 16384 点をジオメトリ フローへの入力としてサブサンプリングします。画像ストリームは、入力として 1280 × 384 の解像度の画像を取得します。入力 LiDAR 点群を、それぞれサイズ 4096、1024、256、64 の 4 セットの抽象化レイヤーでサブサンプリングします。4 つのフィーチャ伝播レイヤーを利用して、前景セグメンテーションと 3D プロポーザル生成のための点群サイズを回復します。同様に、ストライド 2 の 4 つの畳み込みブロックを使用して入力画像をダウンサンプリングします。さらに、ストライド 2、4、8、16 の 4 つの並列転置畳み込みも使用して、さまざまなスケールでの特徴マップの解像度を回復します。NMS プロセス中に、2 つのストリーミング RPN によって生成されたボックスのうち、分類の信頼度に基づいて上位 8000 個のボックスが選択されます。次に、ネットワーク管理しきい値 0.8 で冗長ボックスをフィルタリングして 64 個の肯定的な候補ボックスを取得し、これらをリファインメント ネットワークによってリファインします。これら 2 つのデータセットについては、上で説明した 2 ストリーム RPN と同様のアーキテクチャ設計を採用します。

トレーニングプラン当社の 2 ストリーム RPN とリファインメント ネットワークはエンドツーエンドでトレーニング可能です。トレーニング フェーズでは、回帰損失 Lreg と CE 損失は、フォワード プロポーザル、つまり RPN ステージの前景ポイントによって生成されたプロポーザル、およびトレーニング フェーズのグラウンド トゥルースと共有される 0.55 を超える IoU を持つプロポーザルにのみ適用されます。 RCNNのステージ。

パラメータの最適化ネットワークは、Adaptive Moment Estimation (Adam) [10] を使用して最適化されます。初期学習率、重み減衰、運動量係数はそれぞれ 0.002、0.001、0.9 に設定されます。バッチ サイズ 12 の 4 つの Titan XP GPU で、エンドツーエンド方式で約 50 エポックのモデルをトレーニングします。損失関数のバランスウェイト λ は 5 に設定されます。

データの増強。過剰適合を防ぐために、回転、反転、スケーリング変換を含む 3 つの一般的に使用されるデータ拡張戦略が採用されています。まず、点群を縦軸に沿って [−π/18, π/18] の範囲でランダムに回転させます。次に、点群が前方軸に沿ってランダムに反転されます。さらに、各グラウンド トゥルース ボックスは [0.95, 1.05] の一様分布に従ってランダムにスケーリングされます。LIDAR ベースの手法の多くは、データセット全体からグラウンド トゥルース ボックスをサンプリングし、生の 3D フレームに入れて、背後に物体が密集している現実的なシーンをシミュレートします [43、38]。このデータ拡張手法は効果的ではありますが、道路面の事前情報を取得する必要があり、実際のさまざまなシナリオでそれを取得することは困難です。したがって、私たちのフレームワークでは、この拡張メカニズムの適用性と汎用性を活用しませんでした。

4.3 アブレーション

私たちは、LI-Fusion モジュールの有効性と CE 損失を評価するために、KITTI 検証データセットに対して広範な実験を実施しています。

フュージョンアーキテクチャ分析。LI-Fusion モジュールの有効性を検証するために、すべての LI-Fusion モジュールを削除しました。表 1 に示すように、LI-Fusion モジュールを追加した後、3D mAP のパフォーマンスは 1.73% 向上し、ポイント特徴と画像セマンティック特徴を組み合わせる有効性が証明されました。さらに、表 2 で 2 つの異なる融合スキームを比較します。代替手段は、Simple Connect (SC) です。フィーチャ表現ではなく、生のカメラ画像と LIDAR 点群の組み合わせになるようにジオメトリ フローの入力を変更します。具体的には、カメラ画像の RGB チャネルを LIDAR 点群の空間座標チャネルにステッチします。SC は画像ストリーミングを採用していないことに注意してください。もう 1 つのオプションは、2 ストリーム RPN と同様の構造を持つシングルスケール (SS) フュージョンです。違いは、コレクション抽象化層のすべての LI-Fusion モジュールを削除し、最後の機能伝播層に LI-Fusion モジュールのみを残すことです (図 2 を参照)。表 2 に示すように、SC によって生成された 3D mAP はベースラインと比較して 0.28% 減少しており、入力レベルでの単純な組み合わせでは十分なガイダンス情報を提供できないことが示されています。さらに、私たちの方法は SS の 3D mAP よりも 1.31% 優れています。これは、マルチスケール アプリケーションに対する LI-Fusion モジュールの有効性を示しています。

学習されたセマンティック画像特徴の視覚化。2 ストリーム RPN の画像ストリームには明示的な監視情報 (2D 検出ボックスの注釈など) を追加しないことに注意してください。画像ストリームはジオメトリ ストリームとともに最適化され、3D ボックスの監視情報は 2 ストリーム RPN の終端から取得されます。図 4 に示すように、カメラ画像と LiDAR 点群のさまざまなデータ特徴を考慮して、画像の意味論的特徴を視覚化し、画像ストリーミングによって何が学習されるかを理解します。明示的な監視は使用されていませんでしたが、画像ストリームは驚くほど前景オブジェクトを背景から区別し、カメラ画像から豊富な意味論的特徴を抽出し、LI-Fusion モジュールが LIDAR を正確に構築していることを示しています。点群とカメラ画像の対応により、補完的な意味論的画像情報が提供されます。ポイント フィーチャの場合。赤い矢印で示されているように、画像の流れは主に前景オブジェクトの代表的な領域に集中しており、照明が不十分な領域と隣接する領域が非常に明白な特徴を示していることは注目に値します。これは、照明条件の変化が有害なノイズ情報を導入する可能性があるため、画像内の意味的特徴の重要性を適応的に推定する必要があることを示唆しています。したがって、以下では、意味画像特徴の重みマップ w をさらに分析します。

        LI-Fusion レイヤーのウェイト マップ分析。実際のシーンでは、カメラの画像は通常、光によって妨げられ、露出アンダーや露出オーバーが発生します。不満足なカメラ画像によってもたらされるノイズ情報を軽減する重みマッピング w の有効性を検証するために、カメラ画像の照明を変更して実際の環境をシミュレートします。KITTI データセット内の各画像について、y = a∗x+b を変換することで照明の変化をシミュレートします。ここで、x と y はピクセルの元の RGB 値と変換された RGB 値を示します。A は係数、b はオフセットを示します。KITTI データセット内のカメラ画像に対して、ランダムに (response. を 3(response. 0.3) に、b を 5 に緩和します。定量的な結果を表 3 に示します。比較のために、画像ストリームを削除し、以下に基づく LiDAR のみのモデルを使用します。ベースラインとして、83.87% の 3D mAP が得られます。また、入力ステージ (SC) での RGB 座標と LiDAR 座標の単純なスティッチングの結果も示します。この結果、パフォーマンスが 1.08% 大幅に低下し、画像が劣悪であることがわかります。 3D 検出タスクの品質は悪影響を及ぼします。さらに、私たちの方法では重みマップ w が推定されていないため、これも 0.69% の低下につながります。しかし、重みマップ w に導かれて、私たちの方法はベースラインより 0.65% 改善します。重みグラフの導入は、有害な特徴を無視しながら、有利な特徴を適応的に選択できることを意味します。

CE損失解析表 1 に示すように、CE 損失を追加すると、ベースラインが 3.93% 大幅に改善されます。また、IOU 損失との定量的な比較により、3D 検出性能の向上における CE 損失の優位性が検証されます。図 5(a) に示すように、CE 損失は IoU 損失と比較して 3D mAP で 1.28% の改善につながります。これは、3D 検出タスクにおける分類と位置特定の信頼性の一貫性を確保するのに有益であることを示しています。

これら 2 つの信頼区間間の一致がどのように改善されるかを確認するために、CE 損失の完全な分析を実行します。説明の便宜上、重複が事前定義された IoU 閾値 τ よりも大きい予測ボックスを正の候補として示します。さらに、分類の信頼度が低い肯定的な提案をフィルタリングするために、別のしきい値 υ を採用します。したがって、一貫性は保持された肯定的な候補ボックスの数に対する R の比率によって評価でき、次のように記述できます。

 4.4 KITTI実験

 表 5 は、KITTI テスト セットの定量的結果を示しています。3D mAP に関しては、この論文の方法はマルチセンサーベースの方法である F-PointNet[27]、MV3D[3]、AVOD-FPN[11]、PC-CNN[5]、ContFuse[18]、MMF よりも優れています。 [17] それぞれ 10.37%、17.03%、7.71%、6.23%、9.85%、2.55% 増加しました。MMF [17] は 2D 検出、表面推定、深度補完などの複数の補助タスクを利用して 3D 検出パフォーマンスを向上させるため、多くの追加のアノテーションが必要であることに注意してください。これらの実験は、私たちの方法がカスケード方法 [27] だけでなく、ROI ベースの方法 [3、11、5] およびボクセルベースの融合方法 [18、17] よりも優れていることを一貫して示しています。

        また、将来の研究と比較するために、表 4 に KITTI 検証分離の定量的結果を示します。さらに、補足資料では、KITTI 検証データセットに関する定性的な結果を示します。

 5 まとめ

我々は、2 ストリーム RPN と改良されたネットワークで構成される新しい 3D オブジェクト検出器である EPNet を提案します。LI-Fusion モジュールを使用すると、LIDAR 点群やカメラ画像などのさまざまなセンサーが結合され、点の特徴が効果的に強化されます。さらに、分類信頼度と位置特定信頼度の間の不一致は、提案された CE 損失によって解決され、位置特定信頼度と分類信頼度の間の一貫性が明示的に保証されます。広範な実験により、LI-Fusion モジュールの有効性と CE 損失が検証されました。将来的には、LIDAR 点群の深度情報を使用して画像特徴表現を強化し、2D 検出タスクでそのアプリケーションを使用する方法を検討します。

自分でまとめる

革新

1. 融合方法。融合された特徴自体が重みとして機能し、画像のスプライシングに影響を与えます。融合プロセス全体も非常に明確です。

2. カテゴリと位置のバランスがとれるように損失関数を改善します

疑っている

この構造は最終的には 3D グリッドと点群セグメンテーションの双頭構造になるはずですが、どの部分が点群セグメンテーションの結果と構造に相当するのかわかりません。議論へようこそ~

おすすめ

転載: blog.csdn.net/qq_53086461/article/details/130141097