【物体検出論文閲覧注意】超解像を用いたリモートセンシング画像における平面検出

概要

        リモートセンシング画像は、多数の小さなターゲット、インスタンスレベルのノイズ、雲の遮蔽などの要因により、ターゲットの検出精度が低く、見逃し率や誤検出率が高くなりますこの論文では、 SRGAN と YOLOV3 に基づく SR-YOLO と呼ばれる新しい物体検出モデルを提案しますハイパーパラメータおよびモード崩壊に対する SRGAN ネットワークの感度が解決されました同時に、 YOLOv3 の FPN ネットワークは PANet に置き換えられ、最下層と最上層の間の距離が短縮され SR-YOLO モデルはパスを強化することで各層の機能を強化し、強力な堅牢性と高い堅牢性を備えています。探知能力ucas-高解像度空中物体検出データセットの実験結果は、SR-YOLO が優れたパフォーマンスを達成することを示しています。YOLOv3 と比較して、SR-YOLO の平均正解率 (AP) は 92.35% から 96.13% に増加し、対数平均欠落率 (MR-2) は 22% から 14% に減少し、再現率は 91.36% から 14% に増加しました。 95.12%。


1 はじめに

        リモートセンシングによる画像目標検出は、果物狩りの誘導、交通管理、環境分析、軍事測量と地図作成、軍事目標偵察など、民間および軍事分野で広く使用されていますリモートセンシング画像は現地調査に比べて精度が高くなりますリアルタイムに地上情報を捉え、詳細な情報を得ることができるためリモートセンシング画像から航空機、船舶、自動車などの物体を正確に識別することができ、軍事作戦や交通管理において非常に重要です一部の低解像度画像の検出タスクを改善するために、画像解像度の向上と物体検出を組み合わせた方法が提案されています。[3] では、正則化パラメータ S2R2 は、低解像度の顔認識に超解像度技術を適用します。[4] 特徴抽出には翻訳不変性とグローバルな手法を採用しています。低解像度画像のアーチファクトや不連続性を除去し、顔画像の超解像度再構成を実行して検出精度を向上させます。さらに、一部の検出タスクでは、画像のブレを除去 [5-8] またはノイズ除去 [9] によってモデル検出の精度が向上しますこれらの方法は、従来の画像処理技術に基づいて解像度を向上させますが、独自の制限により、依然として多数の小さなターゲット、インスタンスレベルのノイズ、および雲のオクルージョンの影響を受けるため、画像処理技術でのターゲット検出に適用するのは困難です。リモートセンシング映像

        この論文では、深層学習におけるエンドツーエンドのトレーニングの力を活用して、低レベルと高レベルの視覚オブジェクトを組み合わせて、いわゆる「超解像で一度しか見えない」ものを生成する超解像手法を調査します (SR) -ヨロ)。超解像度画像には、より識別しやすい特徴が含まれているため、物体検出の精度が向上します低解像度入力に対する物体検出の堅牢性を向上させる手段として、このアプローチは他の物体検出方法よりも大幅に優れた結果を提供し、広範囲のリモート センシング衛星画像処理ツールや高度なタスクに適用できる可能性があります以前の研究と比較して、この論文は高度なSRGAN超解像度とYou Look Only one(YOLOv3)ターゲット検出の第3バージョンを採用し、この2つの組み合わせをリモートセンシング衛星画像における航空機検出に適用し、そのネットワーク構造を改善します。リモートセンシング画像の検出によく応用されています。SR-YOLO は、まず SRGAN のハイパーパラメータ感度とモード崩壊の問題を解決し、次に PANet によって小さなオブジェクトの意味情報を強化します [10]最後に、超解像技術を使用してターゲット検出用の検出器を駆動しリモートセンシングによる小さなターゲット検出が困難であるという問題を解決します

        この文書は改善のために 2 つの部分に分かれています: 1) SRGAN ネットワークを改善します残差ネットワークは、生成ネットワークの正規化層を置き換え弁別器と生成器の損失関数を再構築するためのペナルティ メカニズムを追加しますSRGAN ネットワークのトレーニング プロセスはより安定しており、より包括的な特徴空間が取得され、生成される画像はよりきめ細かくなります2) YOLOV3 ネットワークを改善しますまず、使用するデータセットに基づいて、航空機の検出に適した新しい境界ボックスのセットを再定義します最後に、ネック ネットワークとしてフィーチャ ピラミッド ネットワーク (FPN) [11] の代わりにパス アグリゲーション ネットワーク (PANet) が使用され、サブサンプリングが導入され、すべてのレベルのフィーチャが一緒にプールされ、アップとダウンの間の距離は短縮され、拡張されたパスはすべてのレベルの機能を強化するために使用されます

        本稿では、5 章に分けて提案手法を紹介します。第 1 章では、この論文の研究背景、既存の問題点とその解決策を紹介し、論文の構成と概要を紹介します。第 2 章では、超解像と物体検出に関する関連研究について説明します。セクション 3 では、私たちの方法を詳しく説明します。第 4 章では、他のアルゴリズムとの比較や UCAS-AOD ベンチマーク データセットに基づく実験結果の分析など、実験プロセスを紹介します。第 5 章では、この論文の貢献点と不足点を要約します。


2 関連作品

        現在、画像再構成により低解像度画像の検出精度を向上させる研究が盛んに行われている対照的に、超解像再構成や物体検出タスクの制約により、リモートセンシング画像の検出精度を向上させる研究は比較的少ない私たちはこの作品を 2 つの方向からレビューします。

2.1 画像の超解像

        超解像度生成敵対的ネットワーク (SRGAN)、拡張ディープ超解像度 (EDSR)、ディープ逆投影ネットワーク (DBPN)、超解像度 DenseNets、ディープ ラプラシアン ピラミッド ネットワーク (DLPN) などのさまざまな超解像度ネットワークが開発されています。提案されている[12-16]。これらの超解像度ネットワークには、画像の大幅なアップスケーリング効果があり、視覚認識が大幅に向上しますこれらのネットワークは、複雑な背景を持つ画像に適していますたとえば、[17] では、DBPN を介して超解像度再構成に低解像度画像を使用し、それを SSD 検出ネットワークに送信して、複雑な背景画像検出の精度を向上させています。より効率的な畳み込みニューラル ネットワーク (CNN) の導入により、超解像技術も急速に開発されました。超解像度畳み込みニューラル ネットワーク (SRCNN) [18] は、まずバイキュービック補間を使用して低解像度画像をオブジェクト サイズに拡大し、次に 3 層の畳み込みネットワークを通じて非線形マッピングを適合させ、最後に高解像度画像の結果を出力します。 。SRCNN のネットワーク構造は非常に単純で、3 つの畳み込み層のみを使用しますいくつかの研究では、残差ネットワークを導入することで SRCNN [19、20] を改善しました。[21] ではリカレント レイヤーが導入されましたが、手作りのレイヤーを使用したデータ拡張にはまだ限界があります。[21,23] に触発されて、DRRN [22] は、パフォーマンスの向上を実現するために、より深いネットワーク構造を採用していますEDSR は、SRResNet (超解像度 ResNet) [12] の冗長なモジュールを削除します。これにより、モデルのサイズが増大し、結果の品質が向上する可能性があります。拡散畳み込みニューラル ネットワーク (DCNN) の深い特徴により、高周波画像の実際のテクスチャを保存できますが、ぼやけやアーティファクトを除去するのは依然として難しい問題です。[24] は知覚損失を導入し、[25] は損失に対して導入します。この問題はすでに解決されていますSRGAN は、知覚損失と敵対的損失を使用して、生成された画像のリアリズムと細かいテクスチャの詳細を向上させますただし、SRGAN にはハイパーパラメータの感度とモダリティの崩壊があり、その結果、トレーニング プロセスが不安定になります。現在、リモート センシング画像における物体検出の問題を解決するために、リモート センシング画像と組み合わせられた超解像技術はほとんどありません


2.2 リモートセンシング画像による物標検出

        物体検出は、2 段階と 1 段階の 2 つのカテゴリに分類できます。2 段階検出アルゴリズムは、ターゲット検出問題を 2 段階に分割します。領域提案の生成と、候補フレーム領域の分類と調整です [27-30]。1 段階検出アルゴリズムは、Region Proposals 段階を生成する必要のない回帰法に基づいており、複雑なフレームワークなしで オブジェクトのカテゴリ確率と位置座標値を直接取得できます[31-34]。一般に、2 段階のアルゴリズムは検出精度が高く、速度が遅いため、より高い精度が必要なシナリオに適しています。一段階アルゴリズムは検出精度が低いが高速であるため、リアルタイム検出を実現できます [35]

        リモート センシング画像内の物体の検出精度を向上させるために、[36] は、検出された物体領域の境界ボックスを最適化する非最大抑制アルゴリズムと組み合わせた教師なしスコアベースの境界ボックス回帰 (USB-BBR) アルゴリズムを提案しました。大規模なリモートセンシング画像や大規模なシーン内の小さなオブジェクトに対して、[37] は、バックボーン TinyNet、中間グローバル アテンション ブロック、最終分類器、および検出器で構成される Tiny-Net オブジェクト検出方法を提案しています。リモート センシング画像内の特定のオブジェクトを検出するために、モデル [38] は、それぞれが特定のサイズの建物専用の複数の検出器をトレーニングします。さらに、モデルは、道路抽出タスクと建物検出タスクを同時にトレーニングすることにより、コンテキスト情報を暗黙的に利用します[39] は、航空画像やビデオ内の複数の物体車両を検出するための新しいディープ ネットワークである回転可能領域残差ネットワーク (R3-Net) を提案しました。

        リモートセンシング画像における航空機検出の効率と精度を向上させるために、[40] は航空機検出用の結合 CNN ベースの弱教師学習フレームワークを提案しました。[41] は、以前のより複雑な多段階方法と比較して、エンドツーエンドの半教師あり物体検出方法を提案しました。エンドツーエンドのトレーニングにより、コースの経過とともに疑似ラベルの品質が徐々に向上し、疑似ラベルの精度が高まると、オブジェクト検出トレーニングに利益がもたらされます[42] は、ソフト センサー モデリングの品質関連の特徴を学習するためのハイブリッド可変重み付きスタック オートエンコーダー (HVW-SAE) を提案しました。より多くの品質関連変数に対する再構成制約を優先することで、学習された特徴に品質予測のためのより多くの情報が含まれるようになります。[43] は、事前トレーニングされた微調整パラダイムの下で既存のオープンソースの事前トレーニングされたバックボーンを使用して高性能検出器を構築するための、新しくて柔軟なバックボーン フレームワーク CBNetV2 を提案しました。[44] は、物体検出のために頭部と注意を統合するための新しい動的頭部フレームワークを提案しました。提案された方法は、計算オーバーヘッドなしで物体検出ヘッドの表現力を大幅に向上させます[45] は、リモートセンシング画像分類のためのスペクトル空間加重カーネル多様体埋め込み分布アライメント (SSWK-MEDA) を提案しました。この方法は、新しい空間情報フィルターを適用し、隣接するサンプルピクセル間の類似性を効果的に利用し、非サンプルピクセルの影響を回避し、多様体空間内の特徴の幾何学的構造を利用して、転送時のリモートセンシングデータの特徴の歪みの問題を解決します。学習シナリオ、質問、


3 提案手法

        本稿では新しい検出モデル SR-YOLOを提案する。私たちは、超解像度 SRGAN と YOLOv3 検出ネットワークのより良い組み合わせを模索します。したがって、まず SRGAN ネットワークの学習プロセスにおける不安定性の問題を解決し、生成される画像の品質を向上させる必要があります。次に、小さなオブジェクトを検出する YOLOv3 の機能が重要です。したがって、このセクションでは、SRGAN ネットワークの改善と YOLOv3 ネットワークの改善の 2 つの部分に分けて改善内容を紹介します。

3.1 SRGANネットワークの改善

ネットワークの微調整を生成します。

        まず、SRGAN 生成ネットワークの BN 層が残差ネットワークに置き換えられます[13, 46] は、BN 層を削除すると PSNR 指向のタスクのパフォーマンスが向上し、計算の複雑さが軽減されることを実証しました。同時に、BN 層を削除すると、ネットワークトレーニングの安定性が向上し、ネットワークの汎化能力が向上します。各層の BN 層を 3×3 畳み込みカーネル畳み込みと PReLU 活性化層に置き換えた後、ネットワークの深さと複雑さが増加し、各畳み込み後の機能が十分に活用され、生成されたネットワークのエッジ機能が向上します。対処します。


再構成損失関数:

        [47] は、GAN トレーニングの不安定性の理由を分析しました。つまり、GAN ネットワーク内の JS 発散により、分布 p と q が重なり合わない場合、照明された分布間の距離を滑らかに明るくすることができず、この位置では効果的な勾配を生成できなくなります。情報が失われ、パターンが崩れてしまいます。[47] からアイデアを借用して、識別生成ネットワークの損失関数を再構築し、トレーニング プロセスがより安定し、損失の収束速度が加速されます。


3.1.1 ネットワークの微調整を生成します。

ネットワーク補間法を使用して、知覚品質を維持し、GAN のアーティファクトとノイズを除去します        。具体的には、最初に PSNR 指向のネットワーク GPSNR をトレーニングし、次に微調整を通じて GAN ベースのネットワーク GGAN を取得します。2 つのネットワークの対応するパラメーターをすべて内挿して内挿モデル GINTERP を取得します。パラメーターは式 1 に示されています。

このうち、θGPSNR、θGGANはそれぞれGINTERP、GPSNR、GGANのパラメータであり、α∈[0,1]は補間パラメータである。実験によると、αが 0.2 の場合、PNSR は理想的なレベルに達します。

        生成ネットワーク内の残差ブロックを改善します。図 1 に示すように、元の生成ネットワークの残差ブロックは、畳み込み層と BN 層に 3×3 畳み込みカーネルを使用し、アクティブ化する PReLU 関数を選択します。最後に、3×3 コンボリューション カーネルのコンボリューションと正規化が再度実行されます。特徴情報をより豊富にするために、非常に少数のパラメータが元の残差ブロックに追加されます。

        2 つの畳み込みプロセスによって取得された固有ベクトルを元の固有ベクトルと組み合わせることで、特徴情報の完全性が保証されます。16 個の元の残差ブロックは、生成ネットワーク、つまり合計 16×2 BN レイヤーにスタックされます。超解像度タスクでは、通常、出力画像は色、コントラスト、明るさなどの点で元の画像と一致している必要があり、変更する必要があるのは解像度と画像の一部の詳細だけです。ただし、SRGAN ジェネレーターの BN は画像のコントラストを引き伸ばし、BN 処理後の画像の色分布も正規化されるため、画像の元のコントラスト情報が破壊され、出力画像の品質に影響を与えます。トレーニング セットの統計がテスト セットと異なる場合、BN 層は望ましくないアーティファクトを生成し、モデルの汎化能力を制限する傾向があります。[44, 45] は、BN 層を削除すると PSNR 指向のタスクのパフォーマンスが向上し、計算の複雑さが軽減されることを実証しました。同時に、BN 層を削除すると、ネットワークトレーニングの安定性とネットワークの汎化能力が向上します。したがって、図 1 の残差ブロックに示すように、元の残差ブロックの BN 層を 3×3 畳み込み層と PReLU 活性化層に置き換えます。これにより、ネットワークの深さと複雑さが増し、後の機能が最大限に活用されます。畳み込みごとの強化と、生成ネットワークのエッジ機能処理の改善。

        図 2 に示すように、生成されたネットワークでは、16 個の残差ブロックが 9×9 畳み込み層を介して連結され、基礎となる完全な特徴空間が取得されます。次に、2 倍アップサンプリングと PReLU アクティベーションが使用されます。最後に、9×9 畳み込み層が接続され、高解像度のリモート センシング データが復元されます。

おすすめ

転載: blog.csdn.net/YoooooL_/article/details/130367905