弱い教師ありセマンティック セグメンテーションのためのマルチクラス トークン トランスフォーマー
まとめ
このホワイト ペーパーでは、弱い教師ありセマンティック セグメンテーション (WSSS) の疑似ラベルとしてクラス固有のオブジェクト ローカリゼーション マップを学習するための新しい Transformer ベースのフレームワークを提案します。
標準的なビジュアル Transformer のトークンの参加領域を利用して、クラスに依存しないローカリゼーション マップを形成できます.
このペーパーでは、Transformer モデルが Transformer で複数のトークンを学習することにより、クラス固有の注意を効果的に捉えることができるかどうかを調査します。 .
このホワイト ペーパーでは、MCTformer と呼ばれるマルチクラス トークン トランスフォーマーを提案します。このトランスフォーマーは、複数のクラス トークンを使用して、クラス トークンとパッチ トークン間の相互作用を学習します。MCTformer は、異なるクラス トークンの対応するクラスからパッチへのアテンションから、クラス識別オブジェクト ローカリゼーション マップを正常に生成できます。
著者らは、パッチ間トランスフォーマーから抽出されたパッチレベルのペアワイズ アフィニティ関係を使用して、ローカル グラフをさらに改良することも提案しています。さらに、提案されたフレームワークは、クラス アクティベーション マッピング (CAM) メソッドを完全に補完し、PASCAL VOC および MS COCO データセットで非常に優れた WSSS 結果を達成することが示されています。これらの結果は、WSSS のクラス トークンの重要性を強調しています。
図 (a) 前の vit では、1 つのクラス トークン (赤いボックス) のみを使用して、パッチ トークン (青いボックス) から情報を集約しました。クラス トークンに対応する学習されたパッチ アテンションは、クラスにとらわれないローカリゼーション マップを生成します。
(b) 提案された MCTformer は、複数のクラス トークンを使用して、クラス トークンとパッチ トークン間の相互作用を学習します。さまざまなクラス トークンの学習されたクラスからパッチへの注意により、クラス固有のオブジェクト ローカリゼーション マップが生成されます。
本論文の方法
MCTformer-V1
入力 RGB イメージは最初にセグメント化され、一連のパッチ ラベルに変換されます。C をクラスの数として、C 個の追加のクラス トークンを学習することを提案します。クラス C トークンはパッチ トークンと連結され、位置埋め込み (PE) が追加されてから、連続する L トランスフォーマー エンコーディング レイヤーを通過します。
最後に、出力 C クラス トークンを使用して、プーリングの平均化によってクラス スコアを生成します。最後の K レイヤーとマルチヘッド アテンションをまとめると、最終的なアテンション マップが生成されます。そこから、クラス固有のオブジェクト ローカリゼーション マップとパッチ レベルのペアワイズ アフィニティ マップを、それぞれクラス間のアテンションとパッチ間のアテンションから抽出できます。 . . パッチレベルのペアワイズ アフィニティを使用して、クラス固有のアテンション マップを改良し、改善されたオブジェクト ローカリゼーション マップを生成できます。
MCTformer-V2
CAM モジュールは MCTformer-V1 で導入されました
. CAM モジュールは畳み込み層とグローバル平均プーリング (GAP) 層で構成されています.
最後のトランスフォーマー エンコーディング レイヤーからの再形成された出力パッチ トークンを入力として受け取り、クラス スコアを出力します.
MCTformer-V1 の場合、出力クラス トークンを使用してクラス スコアを生成します. したがって、モデル全体は、2 つの分類損失を 2 つのクラス予測にそれぞれ適用することによって最適化されます。
推論時に、MCT アテンション マップと PatchCAM マップを融合して、パッチ間のトランスフォーマー アテンションからパッチ アフィニティを抽出し、最終的なオブジェクト ローカリゼーション マップを生成することで、結果をさらに絞り込みます。
その他の詳細:
モジュールの融合:
クラス固有のオブジェクト ローカリゼーション マップの改良:
patch2patch は上記で融合されたモジュールを最適化します
実験結果