【arXiv2309】RingMo-lite: CNN-TransformerHybrid Frを使用したリモートセンシングマルチタスク軽量ネットワーク

RingMo-lite: CNN-Transformer ハイブリッド フレームワークを使用したリモート センシング マルチタスク軽量ネットワーク、arXiv 2309

論文: https://arxiv.org/abs/2309.09003

コード: まだオープンソースではありません

MindSpore/RingMo フレームワーク

まとめ

近年、RingMoのリモートセンシング(RS)ビジョンベースモデルは、さまざまな下流タスクで優れたパフォーマンスを実現しています。ただし、コンピューティング リソースに対する需要が高いため、エッジ デバイスでのこれらのモデルの適用は制限されます。軌道上リモートセンシング画像解釈をサポートするには、より軽量な基本モデルを設計する必要があります。既存の方法は、RS 画像解釈の汎用性を維持しながら軽量ソリューションを達成するという課題に直面しています。これは、RS 画像には複雑な高周波および低周波のスペクトル成分が含まれているため、従来の単一の CNN またはビジュアル トランスフォーマー手法がこのタスクには適さないためです。
したがって、本論文では、CNN-Transformerハイブリッドフレームワークを備えたRSマルチタスク軽量ネットワークであるRingMo-liteを提案します。これは、RSの周波数領域特性を効果的に利用して解釈プロセスを最適化します。Transformer モジュールをローパス フィルターとして使用して、デュアル ブランチ構造を通じて RS 画像の全体的な特徴を抽出し、CNN モジュールをスタックされたハイパス フィルターとして使用して、きめの細かい詳細を効果的に抽出しますさらに、事前トレーニング段階では、設計された周波数領域マスク画像モデリング (FD-MIM) が各画像パッチの高周波特性と低周波特性を組み合わせて、RS データ内の潜在的な特徴表現を効果的にキャプチャします。

図に示すように、RingMo と比較して、提案された RingMo-lite は、同様のサイズのモデルと比較して、さまざまな RS 画像解釈タスクでパラメータを 60% 以上削減し、ほとんどのシナリオで平均精度の低下は 2% 未満です。 SOTA パフォーマンスを達成します。

導入

モチベーション 

RingMo リモート センシング大規模モデルの出現により、既存の手法の一般化機能が不十分であるという問題が効果的に解決されます。ただし、コンピューティング リソースとストレージ リソースの需要が大きく、柔軟性が十分ではなく、エッジ サーバーや端末に適用するのは困難です。この記事は軽量の基本モデルを設計することを目的としています。

一般的な視覚処理の分野では、次の 3 種類の軽量ビジュアル基本モデル メソッドがあります。

  • 知識の蒸留、転移学習ですが、追加の教師モデルが必要です。
  • ニューラル アーキテクチャ検索 (NAS) は、適切なネットワーク構造を自動的に検索しますが、多くのコンピューティング リソースと処理時間を必要とします。
  • ネットワーク構造設計: ネットワーク構造設計は、個別の設計に応じて結果を得ることができ、計算量はそれほど多くありません。
さまざまな RS シナリオにおける、特定のターゲット エリアと大規模なシーン エリア間の周波数領域の比較の例。2 行目の 3D 周波数領域プロットは、スペクトル成分に基づいて計算されます。中心に近いほど低周波部分を表し、周辺に近いほど高周波部分を表します。3 行目と 4 行目は、それぞれハイパス フィルターとローパス フィルター後の画像の結果です。

RS 分野には 2 つの課題があります。

  • リモートセンシング画像は解像度や方位角の範囲が異なり、物体の分布も複雑ですしたがって、リモートセンシング画像には、多くの場合、特定の対象領域と大規模な地上物体の両方が含まれており、それらの間には多くのスケール差があります。密集した小さな物体のピクセルは空間次元で大幅に変化しますが、大きな地上の物体のピクセルは比較的均一かつゆっくりと変化します。これらのオブジェクトのマルチスケールの違いは、モデルの一般化能力に大きな課題をもたらします。
  • 第 2 に、さまざまなリモート センシングの解釈タスクは、さまざまな対象領域に焦点を当てる傾向があります。たとえば、シーン分類タスクには広範囲の空間スケールが含まれるため、グローバルな一般化情報にさらに注意を払う必要があります。しかし、RSターゲット検出の下流タスクでは、航空機、船舶、車両などのターゲットの局所的な詳細情報にさらに注意を払う必要があります。RS 画像内の主要なオブジェクトのピクセル変化は周波数領域で対応する表現を持ち、異なる周波数は特徴変化の強度を表します。高周波情報と低周波情報のこうした違いは、さまざまな下流タスクにおける解釈の精度に部分的に影響します

多くのネットワーク構造設計手法では CNN と Transformer の組み合わせが採用されていますが、主に CNN を使用して Transformer ブロックの一部を置き換えて計算を削減することに重点が置かれています。既存の手法のほとんどは、CNN と Transformer を使用して RS 画像から高周波情報と低周波情報を抽出する利点に注目していません。

要約すると、本稿は、さまざまなリモートセンシング画像読影タスクに適した新しい軽量基本モデルRingMo-liteを提案します。まず、特定のターゲット領域の詳細な特徴と大規模シーンの全体的な特徴を完全に抽出するために、この論文は軽量の CNN-Transformer デュアルブランチ ハイブリッド アーキテクチャを設計します。特に、

  • Transformer 構造は、セルフ アテンション メカニズムを通じてグローバルな関係と長期的な依存関係を確立し、画像の構造的および意味論的な側面をより深く理解できるようにします。したがって、入力画像の周波数領域では、Transformer は低周波情報を抽出するローパス フィルターとみなすことができ、大規模な表面特徴要素の情報をより適切に抽出できます。
  • CNN アーキテクチャは、行列計算による畳み込みスライディング ウィンドウ内の局所的な詳細に焦点を当てますしたがって、CNN ブランチは、空間位置のバイアスをさらに軽減し、テクスチャや詳細などの局所的な特徴をキャプチャすることを目的としています。周波数領域では、CNN は複数のハイパス フィルターの重ね合わせとみなすことができ、高周波情報の抽出や特定のターゲット情報の処理に適しています。

CNN と Transformer という 2 つの異なる構造の利点を組み合わせて、提案されたデュアルブランチ ブロックは、チャネル次元でハイブリッド構造を分離し、RS 画像の高周波情報と低周波情報を包括的に利用し、解釈精度を効果的に向上させます。

第二に、本論文は、RS画像の高周波および低周波情報に適した周波数領域マスク画像モデリング(FD-MIM)を設計し、自己教師あり学習を組み合わせることで軽量基本モデルの事前学習効果を向上させます。FD-MIM は、提案された CNN Transformer 混合フレームワークに対応します。これは、マスキング中に画像の詳細をより適切に再構築するのに役立ち、提案された軽量モデルがさまざまな下流タスクに適した豊富な特徴表現を学習するのを容易にします。

貢献する

  • 軽量な軌道上解釈を実現するために、本論文では、さまざまな RS 画像解釈タスクに適したデュアルブランチ CNN と Transformer のハイブリッド フレームワークであるRingMo-lite を提案します。この方法は、リモートセンシング画像とタスクの高周波情報と低周波情報を十分に考慮し、読影精度を効果的に向上させます。
  • RS オブジェクト領域の周波数領域特性を考慮して、本稿では、提案されたフレームワークがより豊富な特徴表現を学習し、ダウンストリーム タスクの一般化能力を効果的に向上させるFD-MIM 自己教師あり事前トレーニング戦略を設計します。
  • RingMo と比較して、RingMo-lite はさまざまな RS 画像解釈タスクでパラメータが 60% 以上少なく、平均精度の低下は 2% 未満であり、同じサイズのモデルと比較して、RingMo-lite は 4 つのダウンストリーム タスクで実行できます。 RS 画像分類、ターゲット検出、セマンティック セグメンテーション、変更検出などのタスクにおける SOTA パフォーマンス。

メソッド RingMo

RingMo ネットワーク フレームワーク

図に示すように、入力イメージは最初にパッチ分割を使用して重複しないパッチ (サイズ 4 × 4) に分割され、トークンとして扱われます。これらのパッチは積み重ねられ、線形埋め込み層に供給されます。画像表現は 4 段階の処理を経て得られます。各ステージには異なる数の高周波情報融合ブロック (FIFB) と低周波情報融合ブロック (FIFB) が含まれており、具体的な数は Swin Tiny の (2,2,6,2) 構成によって異なります。
トークン数の減少を相殺するために、ステージ間にパッチ マージ レイヤー (Patch Merging) が導入されます。各 FIFB には、低周波数 (LF) ブランチと高周波数 (HF) ブランチへの細分があります。CNN とトランスフォーマーの特徴抽出機能を最適に利用するために、FIFB の入力特徴はそれぞれ 2 つのブランチに送信されて低周波情報と高周波情報がキャプチャされ、融合されて次のブロックまたはパッチ マージ レイヤーに供給されます。 。

  • LF ブランチは Swin Transformer の主要な構造に従い、グローバルな機能を取得します。
  • HF ブランチは入力特徴をさらに 2 つの部分に分割し、CNN を使用して詳細な特徴を抽出します。

ネットワークの詳細

高低周波情報融合ブロック (FIFB)

ViT と CNN の再考: ViT はマルチヘッド セルフ アテンションを使用して、重複しないトークン間で情報を交換します。ローパス フィルターとして、MSA は長い依存関係をモデル化し、低周波情報をキャプチャするのが得意です。ただし、特徴マップに対する MSA の空間平滑化操作は高周波信号を減衰させる傾向があり、その結果、低周波情報が大半を占める特徴表現が生じます。対照的に、CNN は受容野内のローカル畳み込み (Convs) を使用してローカル情報を取得します。MSA とは対照的に、Convs は画像の高周波表現を効果的に抽出できるハイパス フィルターです。したがって、MSA と Convs は相補的な特性を示し、MSA はグローバルな依存関係と低頻度の情報を取得しますが、Conv はローカルな詳細と高頻度の情報を保持するのが得意です。

リモート センシング タスクにおける周波数特徴: 通常、シーンやオブジェクトのグローバル構造は画像内の低周波情報を伝えますが、エッジやテクスチャなどの局所的な空間詳細は高周波情報として表示されますリモート センシング画像には、本質的に小さなオブジェクトや広範囲にわたる地理的特徴が含まれています。高密度に分散された小規模なオブジェクトのピクセルは空間内で大きく異なりますが、大規模なフィーチャは比較的均一で速度が遅くなります。RS 画像解釈タスクの場合、シーン分類では包括的なグローバル情報の抽出に重点が置かれ、ターゲット検出タスクでは詳細のキャプチャに重点が置かれます。さらに、よりきめの細かいタスクでは、よりローカルな詳細が必要になります。これらの考慮事項に基づいて、この論文では、高周波情報と低周波情報を組み合わせて、RS 画像に対するモデルのマルチタスク汎化能力を向上させる FIFB を提案します。

FIFB: 図 4 に示すように、FIFB の入力特徴は2 つの異なるブランチ ( LF ブランチと HF ブランチ)F \in R^{N*N*C}にそれぞれ供給されますLF ブランチは、長距離にわたる広範な依存関係をキャプチャするための Swin Transformer のアーキテクチャに基づいています。

HF ブランチは、入力特徴を 2 つのパーティション と に分割しそれぞれ最大フィルターの鋭い感度と Convs の詳細認識を活用してF_1 \in R^{N*N*C/2}高周波情報を抽出します。F1 と F2 を結合した後、豊富な高周波情報を含む包括的な特徴マップ H が生成されます。F_2 \in R^{N*N*C/2}

FIFB プロセスの出力は、低周波特徴 L と高周波特徴 H の融合です。

 

周波数領域でマスクされた画像モデリング

モデルの効率と汎化能力を向上させるために、ローカルとグローバルの両方の画像特徴をキャプチャする事前トレーニング戦略を設計するのが一般的です。有望なアプローチの 1 つは、マスキング技術を使用して画像内の特定の特徴を強調することです。マスク イメージ モデリング (MIM) は、固有のデータ関係を組み込んで、モデルが複雑な RS イメージをよりよく理解できるようにガイドできます。入力画像の構造と隣接するピクセル間の相関関係を利用することで、明示的なラベル付けを行わずにモデルが意味のある表現を学習できるようになります。

多くの MIM メソッドは通常、ランダム マスキング戦略を採用します。特定の割合の画像パッチを選択し、それらに対してマスク補完を実行します。RS 画像には、より複雑な背景と多くの小規模なオブジェクトが含まれる独自のイメージング メカニズムがあり、RS 画像の解釈における多くのランダム マスキング戦略が制限されます。これに関連して、この論文では、高周波領域および低周波領域のマスクされた画像モデリング (FD-MIM) の概念を紹介します。FD-MIM は、提案されている CNNTransformer ハイブリッド フレームワークに対応します。提案された方法は、マスクされた画像の潜在表現を抽出し、それらを使用してマスクされた領域の元の信号を再構築できます。複雑な RS 画像内の高周波および低周波領域の情報を適切に保持することにより、マスキング中に画像の詳細をより適切に再構築するのに役立ちます。学習されたエンコーダはさまざまな光 RS ダウンストリーム タスクに適しており、L1 回帰損失を使用して再構成結果とピクセルの差が計算されます。

  • まず、FD-MIM は、データセット内の各 RS 画像から50% の画像パッチをランダムに選択します周波数領域分析は、離散フーリエ変換 (DFT) を使用してこれらのブロックに対して実行されます選択されたブロックは、高周波または低周波のカテゴリに分類されますこの分類は、各パッチ内の高周波コンテンツ ピクセルと低周波コンテンツ ピクセルの比率の比較に基づいて行われます高周波成分の割合が高いパッチは高周波プラークとして指定され、低周波成分が優勢なパッチは低周波パッチとして分類されます。
  • 編成内の高周波と低周波をさらに強調するために、この論文では、これらの分類されたパッチに対してそれぞれハイパス フィルタリングとローパス フィルタリングを実行します前者は高周波部分の固有の特性を強化し、後者のフィルタリングは重要な低周波情報を保持するのに役立ちます。このステップは、主要な周波数領域特性を維持しながら、周波数成分をより適切に分離するのに役立ちます。
  • 最後に、モデルの堅牢性と一般化能力を強化するために、この論文ではランダム ピクセル マスキングを導入しています。これには、周波数分離されたパッチからピクセルをランダムに選択し、マスキング操作を適用することが含まれますこの戦略により、トレーニング中に再構成された画像の複雑さが増し、モデルが最も関連性のある識別可能な特徴の学習に集中できるようになります。

実験

RSシーン分類

RSターゲット検出

 

 

RS セマンティック セグメンテーション 

RS変化検出 

RingMo と RingMo-lite の比較

おすすめ

転載: blog.csdn.net/m0_61899108/article/details/133550980