リモートセンシング画像分割における SAM の応用

タイトル: RSPrompter: Visual Foundation モデルに基づいたリモート センシング インスタンス セグメンテーションのプロンプトの学習 論文
: https://arxiv.org/abs/2306.16269
コード: https://github.com/KyanChen/RSPrompter

ガイド

Meta AI Research が提案する基本的な「セグメント何でもモデル」(SAM) は、大量のトレーニング データ (SA-1B) を使用することにより、大幅な一般化とゼロサンプル機能を示しました。それにもかかわらず、SAM は、ポイント、ボックス、粗いマスクなどの事前の手動ガイダンスに大きく依存する、クラスに依存しないインスタンス セグメンテーション手法であるようです。さらに、リモート センシング画像セグメンテーション タスクにおける SAM のパフォーマンスは十分に調査および実証されていません。

本稿では、リモートセンシング画像の意味カテゴリ情報を組み込んだSAM基本モデルに基づく自動インスタンスセグメンテーション手法の設計を検討します。この文書は、プロンプト学習に触発されて、SAM の入力として適切なプロンプトを生成する方法を学習します。これにより、SAM は、RSPrompter と呼ばれるメソッドで、リモート センシング画像の意味的に識別可能なセグメンテーション結果を生成できるようになります。このホワイト ペーパーでは、SAM コミュニティの最近の開発に基づいて、いくつかの SAM ベースのインスタンス セグメンテーション派生物も提案し、それらのパフォーマンスを RSPrompter と比較します。WHU Building、NWPU VHR-10、および SSDD データセットに関する広範な実験結果により、提案された方法の有効性が検証されています。

10 億を超えるマスクでのトレーニングのおかげで、SAM は追加のトレーニングを必要とせずに、あらゆる画像内のあらゆるオブジェクトをセグメント化することができ、さまざまな画像やオブジェクトにわたってその優れた汎化能力を実証します。これにより、インテリジェントな画像分析と理解のための新たな可能性と道が生まれます。ただし、対話型フレームワークのため、SAM は、以下の図 (a) に示すように、クラスに依存しないセグメンテーション メソッドとして動作するために、ポイント、ボックス、マスクなどの事前のプロンプトを提供する必要があります。明らかに、これらの制限により、SAM はリモート センシング画像の完全自動解釈には適していません。

ここに画像の説明を挿入
さらに、リモート センシング画像シーンにおける複雑な背景の乱れと明確に定義されたオブジェクトのエッジの欠如が、SAM のセグメンテーション機能に重大な課題を引き起こしていることも観察しました。SAM がリモート センシング画像ターゲットの完全なセグメンテーションを達成することは困難であり、結果はプロンプトの種類、場所、および数に大きく依存します。ほとんどの場合、上記の (b) に示すように、目的の効果を達成するには、適切な手動プロンプトが不可欠です。これは、リモート センシング画像のインスタンス セグメンテーションに SAM を適用すると、かなりの制限があることを示しています。

基本モデルのリモート センシング画像インスタンスのセグメンテーション機能を強化するために、この論文では、SAM フレームワークの機能を強化できるプロンプトを生成する方法を学習するための RSPrompter を提案します。この文書の動機は、各プロンプト グループがマスク デコーダを介してインスタンス化マスクを取得できる SAM フレームワークにあります。複数のクラス関連のプロンプトを自動的に生成できれば、SAM デコーダーはクラス ラベルを持つ複数のインスタンス レベルのマスクを生成できることを想像してください。ただし、このプロセスには 2 つの主な課題があります。 (i) カテゴリ関連のプロンプトはどこから来るのか? (ii) マスク デコーダの入力としてどのタイプのプロンプトを選択する必要がありますか?

SAM はカテゴリに依存しないセグメンテーション モデルであるため、そのエンコーダの深い特徴マップには豊富なセマンティック カテゴリ情報を含めることができません。この障害を克服するために、エンコーダーの中間層の機能を抽出してプロンプターの入力を形成し、セマンティック カテゴリ情報を含むプロンプトを生成します。第 2 に、SAM プロンプトにはポイント (前景/背景ポイント)、ボックス、またはマスクが含まれます。生成するポイント座標は元の SAMprompt 多様体で検索する必要があり、プロンプターの最適化スペースが大幅に制限されることを考慮して、プロンプトの表現をさらに緩和し、ポイントまたはポイントの埋め込みとして理解できるプロンプトの埋め込みを直接生成します。元の座標の代わりにボックスを使用します。この設計は、高次元から低次元へ、そして高次元特徴に戻る、つまり高次元画像特徴から点座標、そして位置エンコーディングへの勾配の流れの障壁も回避します。

このペーパーでは、SAM モデリング コミュニティにおける現在の進歩と派生したアプローチの包括的な調査と概要も提供します。これらには主に、SAM バックボーン ネットワークに基づく方法、SAM と分類器を統合する方法、および SAM と検出器を組み合わせた技術が含まれます。

方法

SAMモデル

SAM は、前景/背景ポイント、境界ボックス、マスクなどの指定されたプロンプトからセグメンテーション結果を生成する対話型セグメンテーション フレームワークです。これは、イメージ エンコーダ、プロンプト エンコーダ、マスク デコーダの 3 つの主要コンポーネントで構成されます。SAM は、Vision Transformer (ViT) ベースの事前トレーニング済みマスク オートエンコーダーを使用して、画像を中間特徴に処理し、以前のプロンプトを埋め込みトークンにエンコードします。その後、マスク デコーダのクロスアテンション メカニズムにより、画像特徴間の相互作用とプロンプト埋め込みが促進され、最終的にマスク出力が生成されます。プロセスは次のように表現できます。

ここに画像の説明を挿入
このホワイト ペーパーで提案する RSPrompter 以外に、以下の (a)、(b)、および © に示すように、他の 3 つの SAM ベースのインスタンス セグメンテーション手法を比較のために紹介します。この論文は、リモート センシング画像インスタンスのセグメンテーション タスクにおけるそれらの有効性を評価し、将来の研究にインスピレーションを与えます。これらの方法には、外部インスタンス セグメンテーション ヘッダー、マスクされたカテゴリの分類、およびそれぞれ SAM-seg、SAM-cls、および SAM-det と呼ばれる外部検出器の使用が含まれます。

SAM のインスタンス セグメンテーション拡張機能

ここに画像の説明を挿入
SAMセグメント

SAM-seg は、エンコーダを一定に保ちながら、SAM 画像エンコーダが存在するという知識を利用します。エンコーダーから中間層の特徴を抽出し、特徴融合に畳み込みブロックを使用してから、既存のインスタンス セグメンテーション (Mask R-CNN および Mask2Former) を使用してインスタンス セグメンテーション タスクを実行します。このプロセスは次のように表現できます。

ここに画像の説明を挿入
SAM-cls

SAM-cls では、最初に SAM の「フル イメージ」モードを利用して、イメージ内のすべての潜在的なインスタンス オブジェクトをセグメント化します。これは、画像全体にポイントを均一に分散し、各ポイントをインスタンスのプロンプト入力として扱うことによって実現されます。画像内のすべてのインスタンス マスクを取得した後、分類子を使用して各マスクにラベルを割り当てることができます。このプロセスは次のように説明できます。

ここに画像の説明を挿入

便宜上、この記事では軽量の ResNet18 を直接使用してマスクをマークします。2 番目に、事前トレーニングされた CLIP モデルを利用できるため、追加のトレーニングなしで SAM-cls を実行してゼロショット パフォーマンスを達成できます。

SAM-it

SAM-det 手法はよりシンプルかつ直接的であり、コミュニティで広く採用されています。物体検出器はまず画像内の目的の物体を識別するように訓練され、次に検出された境界ボックスがプロンプトとして SAM に供給されます。プロセス全体は次のように説明できます。

ここに画像の説明を挿入

RSプロンプター

概要

上の図 (d) は、提案された RSPrompter の構造を示しています。私たちの目標は、オブジェクトを見つけながら、そのセマンティック カテゴリとインスタンス マスクを推論しながら、テスト セット内の任意の画像を処理できる SAM 指向のプロンプターをトレーニングすることです。次の式:

ここに画像の説明を挿入
画像はフリーズ SAM 画像エンコーダを通じて処理され、Fimg と複数の中間特徴マップ Fi が生成されます。Fimg は、SAM デコーダでプロンプト ガイド付きマスクを取得するために使用されます。一方、Fi は、効率的な特徴集約とプロンプト ジェネレーターによって段階的に処理されて、複数のプロンプト セットと対応するセマンティック カテゴリを取得します。プロンプトジェネレータを設計するために、本論文ではアンカーポイントタイプとクエリタイプという2つの異なる構造を採用した。

機能アグリゲータ

SAM はプロンプトベースのカテゴリーに依存しないセグメンテーション モデルであり、プロンプターの計算量を増やすことなく意味的に関連性のある識別可能な特徴を取得するために、この論文では軽量の特徴集約モジュールを導入します。以下の図に示すように、このモジュールは、SAM ViT バックボーン ネットワークのさまざまな中間機能レイヤーからセマンティック機能を表現することを学習します。これは次のように再帰的に記述できます。

ここに画像の説明を挿入

アンカープロンプター

建築

まず、アンカーベースの領域提案ネットワーク (RPN) を使用して、候補オブジェクト ボックスを生成します。次に、位置エンコードされた特徴マップからの個々のオブジェクトの視覚的特徴表現が、RoI プーリングを介して取得されます。3 つの知覚ヘッドは、視覚的特徴から派生します。セマンティック ヘッド、ローカリゼーション ヘッド、およびプロンプト ヘッドです。セマンティック ヘッダーは特定のオブジェクト カテゴリを識別し、ローカライゼーション ヘッダーは生成されたプロンプト表現とオブジェクト インスタンス マスクの間の一致基準、つまりローカライゼーション ベースの貪欲一致を確立します。プロンプト ヘッダーは、SAM マスク デコーダに必要なプロンプト埋め込みを生成します。プロセス全体は次の図に示されており、次の式で表すことができます。

ここに画像の説明を挿入
損失
このモデルの損失には、RPN ネットワークのバイナリ分類損失とローカリゼーション損失、セマンティック ヘッドの分類損失、ローカリゼーション ヘッドの回帰損失、および凍結 SAM マスク デコーダのセグメンテーション損失が含まれます。総損失は次のように表すことができます。

ここに画像の説明を挿入

クエリプロンプター

アーキテクチャ
アンカー プロンプターは比較的複雑で、マスク マッチングと教師ありトレーニングにバウンディング ボックス情報を使用します。このプロセスを簡素化するために、最適な転送に基づいたクエリベースのプロンプターが提案されています。クエリ プロンプターは主に、軽量の Transformer エンコーダとデコーダで構成されます。エンコーダーは画像から高レベルの意味特徴を抽出するために使用され、デコーダーは、画像特徴との注意の相互作用を通じて、プリセットの学習可能なクエリを SAM に必要なプロンプト埋め込みに変換します。プロセス全体を次の図に示します。これは次のように表現できます。

ここに画像の説明を挿入
損失

クエリ プロンプターのトレーニング プロセスには、主に 2 つの重要なステップが含まれます: (i) SAM マスク デコーダによってデコードされたマスクと実際のインスタンス マスクのマッチング、(ii) 続いて、一致したラベルを使用した教師ありトレーニング。最適な転送マッチングを実行する場合、予測されるクラスとマスクを考慮してマッチング コストを次のように定義します。

ここに画像の説明を挿入
予測された各インスタンスが対応するグラウンド トゥルースとペアになると、監視条件を適用できます。これには、以下で説明するように、主にマルチクラス分類とバイナリ マスク分類が含まれます。

ここに画像の説明を挿入

実験

このペーパーでは、WHU Building Extraction データセット、NWPU VHR-10 データセット、SSDD データセットという 3 つのパブリック リモート センシング インスタンス セグメンテーション データセットが使用されています。WHU データセットは単一クラスの建物ターゲット抽出セグメンテーション、NWPU VHR-10 はマルチクラスのターゲット検出セグメンテーション、SSDD は SAR 船舶ターゲット検出セグメンテーションです。mAPを使用したモデルの性能評価。

WHUでの成果

ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入

NWPUの結果

ここに画像の説明を挿入
ここに画像の説明を挿入

SSDDの結果

ここに画像の説明を挿入
ここに画像の説明を挿入

要約する

本稿では、SAM ベースモデルを利用したリモートセンシング画像のセグメンテーションなどの即時学習手法である RSPrompter を紹介します。RSPrompter の目標は、SAM のプロンプト入力を生成し、セマンティック インスタンス レベルのマスクを自動的に取得できるようにする方法を学習することです。対照的に、元の SAM は追加の手動プロンプトを必要とし、カテゴリに依存しないセグメンテーション方法です。RSPrompter の設計思想は SAM モデルに限定されず、他のベース モデルにも適用できます。この概念に基づいて、事前に設定されたアンカー ポイントに基づく RSPrompter-anchor と、クエリと最適な送信マッチングに基づく RSPrompter-query の 2 つの具体的な実装スキームを設計しました。さらに、SAM コミュニティでこのタスクのさまざまな方法とバリエーションを調査および提案し、それらを当社の迅速な学習アプローチと比較します。RSPrompter の各コンポーネントの有効性はアブレーション実験によって検証されています。一方、3 つの公開リモート センシング データセットに関する実験結果は、私たちの手法が他の最先端のインスタンス セグメンテーション手法や一部の SAM ベースの手法よりも優れていることを示しています。

参考

https://mp.weixin.qq.com/s/CkJ6vlH9nbhWjj0rt68sDg

おすすめ

転載: blog.csdn.net/weixin_42990464/article/details/131508773