WeakTr 読書メモ

WeakTr: 弱教師付きセマンティック セグメンテーションのためのプレーン ビジョン トランスフォーマーの探索

論文リンク
コードリンク

  • この論文では、弱い教師ありセマンティック セグメンテーション (WSSS) のバニラ ViT のプロパティを調査します。
  • さまざまな画像領域に対するさまざまな ViT 注意ヘッドの注意を観察する: 自己注意マップを適応的に融合して、より完全なオブジェクトを含む高解像度画像を取得しながら、注意ヘッドの重要性を推定するための新しい重みベースのエンドツーエンド手法を提案します。高品質のCAM結果
  • CAM結果のオンライン再トレーニングのために、vitベースの勾配クリッピングデコーダーが提案されています
    ここに画像の説明を挿入
    ここに画像の説明を挿入
    図aはアテンションマップを表しています
    図bはクラス間のピーターソン相関係数を表しています

本論文の方法

ここに画像の説明を挿入
画像パッチ トークンと複数のクラス トークンは、最初にトランス エンコーダーに入力され、
畳み込み層をパッチ トークンに適用して粗い CAM を生成します.
適応型注意融合モジュールを使用して、すべての自己注意マップから動的な重みを生成し、フィードフォワード ネットワーク 動的な重みの相互作用
最後に、重み付きクロス アテンション マップと重み付きパッチ アテンション マップを使用して、粗い CAM を細かい CAM に最適化します。クラス トークン、粗い CAM、および細かい CAM は、最終的にプーリングによって予測を生成し、対応する予測損失を計算します。
詳細は以下をご覧ください

プレーン ViT バックボーン

詳細は vit paper を参照してください.
エンコーダは K 個のエンコード層で構成されています. 各レイヤーは、マルチヘッド セルフアテンション (MSA) とマルチレイヤー パーセプトロン (MLP) の 2 つのサブレイヤーで構成されます。

Adaptive Attention FusionによるCAMの直接生成

次に、次のように畳み込み層を使用して粗い CAM ∈ R (N×N×C) を取得します
ここに画像の説明を挿入

単一のセルフアテンション マップの形状は (C + n2)2 であり、これにより、n2 個のパッチ トークンに対する C クラス トークンのクロス アテンション マップと、n2 個のパッチ トークン自体に対するパッチ アテンション マップを取得できます。 vit
エンコーディング エンコーダーには K 個のエンコーディング レイヤーがあり、各エンコーディング レイヤーには H 個のアテンション ヘッドがあり、クロス アテンション マップは CA∈R(K×H)×N×N×C として取得でき、パッチ アテンション マップは次のように取得できます。 PA∈R(K× H)×N 2×N 2
ここに画像の説明を挿入
MCTformer や TransCAM と同じ方法を採用して、粗い CAM、CA、PA を結合します。R は、reshape
ここに画像の説明を挿入
total loss を表します。
ここに画像の説明を挿入

Gradient Clipping Decoder を使用した WeakTr オンライン再トレーニング

CAM は、
ここに画像の説明を挿入
このホワイト ペーパーで提案されている勾配クリッピング デコーダーのアーキテクチャを微調整するために再トレーニングされます。勾配クリッピング デコーダーへの入力は、クラス トークンと ViT エンコーダーによるパッチ トークン出力の 2 つの部分で構成されます。
デコード レイヤー操作の後、まずクラス トークンとパッチ トークンを組み合わせて、対応するパッチ予測を取得します。
次に、取得した予測をアップサンプリングし、予測を予測パッチ {Pi} に分割します。次に、勾配パッチ {Gi} が CAM シードを使用して計算されます。最後に、グラデーション クリッピング マスク {Mi} を動的に生成し、グラデーション クリッピング マスクに元のグラデーション マップを乗算します。
この図では、勾配クリッピング デコーダの構造のみを示していることに注意してください。トレーニング中、ViT エンコーダーと勾配クリッピング デコーダーは一緒に更新されます。

ここに画像の説明を挿入
CE は、各ピクセルに対して計算されたクロス エントロピー損失です。

ここに画像の説明を挿入
ローカルおよびグローバルな勾配制約により、大きな勾配を持つパッチ領域の破棄が実現されます:
ここに画像の説明を挿入
勾配のクリップ:
ここに画像の説明を挿入
最後に、マスク勾配パッチが取得され、それらの平均値が逆伝播されます。そうすることで、勾配が小さい領域を自信のある CAM 領域として動的に選択し、セグメンテーション ネットワークを優先的に学習します。推論中に、条件付きランダム フィールド (CRF) が適用され、セグメンテーションの品質が向上します。

アブレーション実験

ここに画像の説明を挿入
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_45745941/article/details/129966261