《パッチ多様化のビジョントランスフォーマー》

ここに画像の説明を挿入します
論文のリンク: https://arxiv.53yu.com/pdf/2104.12753.pdf?ref=https://githubhelp.com
コードのリンク: https://github.com/ChengyueGongR/PatchVisionTransformer

1. 動機

ここに画像の説明を挿入します

Vision Transformer は、難しいコンピュータ ビジョン タスクにおいて優れたパフォーマンスを示しています。ただし、特にモデルがより広く深くなるにつれて、Vision Transformer のトレーニングは特に安定していないことが判明しました。トレーニングの不安定性の理由を研究するために、著者は 2 つの一般的なビジュアル Transformer バリアント (DeiT、Swin-Transformer) で各セルフ アテンション レイヤーのパッチ表現を抽出し、パッチ表現間の平均絶対コサイン類似度を計算しました。上の図 1(b) に示すように、これら 2 つのモデル種では、パッチ表現間の類似性が大幅に増加していることがわかりました。この動作により、パッチ表現の全体的な表現力が低下し、強力なビジュアル トランスフォーマーの学習能力が低下します。より具体的には、ディープ ビジョン トランスフォーマーの場合、セルフ アテンション モジュールは異なるパッチを同様の潜在表現にマッピングする傾向があり、その結果、情報損失とパフォーマンスの低下が発生します(これは、論文「グラフの観点からの BERT のオーバースムージングの再検討」で解決される問題と非常に似ていますが、問題の解決方法が異なります)
注: 入力パッチ表現シーケンスがh = [ hclass , h 1 , ⋯ , hn ] h =[h_{class}, h_1, \cdots, h_n]h=[ hクラス_ _ _ _h1h]の場合、絶対コサイン類似度の計算式は次のようになります (ここではクラス パッチは無視されます)。
ここに画像の説明を挿入します

2.方法

上記の問題を軽減するために、この記事では、ビジュアル Transformer トレーニングのモデル フレームワークを変更せず、異なるパッチ表現でより異なる方法で特徴を抽出することを明示的に奨励する新しい損失関数を導入するだけです。具体的には、この論文では 3 つの異なる損失、すなわち
1) パッチごとのコサイン損失: パッチごとのコサイン類似性にペナルティを課すことで、異なるパッチ表現間の多様性を直接改善します。 2)
パッチごとのコントラスト損失: パッチベースのコントラスト損失は次のとおりです。最初の層と後続の層の間で学習された対応するパッチ間の表現が類似していること、および対応していないパッチ間の表現が異なることを奨励します。(これは、最初のセルフ アテンション レイヤーの入力パッチ表現が入力ピクセルにのみ依存するため、より多様になる傾向があることを著者が観察したためです) 3) パッチごとの混合損失: パッチごとの混合損失
。カットミックス。2 つの異なるイメージからの入力パッチをブレンドし、各イメージから学習したパッチ表現を使用して、対応するクラス ラベルを予測します。この損失の場合、自己注意層は、そのカテゴリに最も関連性の高いパッチのみに焦点を当てることを強制され、それによってより特徴的な特徴を学習します。

  • パッチごとのコサイン損失 は
    ここに画像の説明を挿入します
    、直接的な解決策として、上記の (a) に示すように、異なるパッチ表現間のコサイン類似度の絶対値を直接最小化することを提案します。与えられた入力xxxの最後のパッチはh [ L ] h^{[L]}h[ L ]、パッチごとのコサイン損失をトレーニング目標に追加します。
    ここに画像の説明を挿入します
    この正則化損失は、異なるパッチ間のペアごとのコサイン類似性を明示的に最小化します。これは、 $$h の最大固有値の上限を最小化すると見なすことができ、それによって、表現の表現力。

  • パッチごとのコントラスト損失
    ここに画像の説明を挿入します
    初期の層で学習された表現は、より深い層で学習された表現よりも多様です。したがって、初期の層からの表現を使用し、より深いパッチを正規化してパッチ表現の類似性を低減するコントラスト損失が提案されています。具体的には、入力画像xxが与えられたとします。xh [ 1 ] = { hi [ 1 ] } ih^{[1]}=\{ h^{[1]}_i \}_ih[ 1 ]={ h[ 1 ]}私はh [ L ] = { hi [ L ] } ih^{[L]}=\{ h^{[L]}_i \}_ih[ L ]={ h[ L ]}私は最初の層と最後の層のパッチをそれぞれ表し、それぞれのhi [ L ] h^{[L]}_i を制約します。h[ L ] h i [ 1 ] h^{[1]}_i h[ 1 ]他のパッチと同様hj ≠ i [ 1 ] h^{[1]}_{j \neq i}hj=[ 1 ]つまり、
    ここに画像の説明を挿入します
    実験では h^{[1]}$ の勾配が停止されました。

  • パッチごとの混合損失では、
    ここに画像の説明を挿入します
    最終的な予測にクラス パッチを使用するだけでなく、クラス ラベルを予測するように各パッチをトレーニングすることをお勧めします。これを Cutmix のデータ拡張と組み合わせて、追加のトレーニング信号をビジュアル Transformer に提供できます。図 © に示すように、2 つの異なる画像からの入力パッチがブレンドされ、分類のために共有線形分類ヘッドが各出力パッチ表現に接続されます。ハイブリッド損失により、各パッチは同じ入力画像からのパッチのサブセットのみに焦点を合わせ、無関係なパッチは無視されます。したがって、異なるパッチ間の単純な平均化を効果的に防止して、より有益で有用なパッチ表現を生成します。このパッチのハイブリッド損失は次のように表すことができます。
    ここに画像の説明を挿入します
    ここで、hi [ L ] h^{[L]}_ih[ L ]最後の層のパッチ表現を表します。g は追加の線形分類ヘッド、yi y_iy私はパッチごとのクラス ラベルを表します、L ce \mathcal{L}_{ce}L_はクロスエントロピー損失を表します。

最後に、 \alpha_1 \mathcal{L}_{cos} + \alpha_2 \mathcal{L}_{contrast} + \alpha_3 \mathcal {L を混合して、α 1 L cos + α 2 L context + α 3 L を単純に最小化します}_{混合}ある1Lコス_ _+ある2L反対_ _ _ _ _ _ _+ある3Lミックスイング_ _ _ _ビジュアルトランスフォーマーのトレーニングを改善するための重み付けされた組み合わせ。ネットワークを変更する必要はなく、特定のアーキテクチャに関連付けられることもありません。実験では、この論文では特別なハイパーパラメータの調整を行わずに、単純に α1 = α2 = α3 = 1 を設定します。

3. いくつかの実験結果

  • 画像分類結果
    1) ImageNet ライブラリ
    ここに画像の説明を挿入します
    2) ImageNet-22K ライブラリ
    ここに画像の説明を挿入します
  • セマンティックセグメンテーションの転移学習結果
    1) ADE20K ライブラリここに画像の説明を挿入します
    2) Cityscapes ライブラリここに画像の説明を挿入します
  • 平均パッチ絶対コサイン類似度比較 (ImageNet ライブラリ)
    ここに画像の説明を挿入します
  • アブレーション実験
    1) 正則化戦略の有効性
    ここに画像の説明を挿入します
    2) トレーニングの安定性
    ここに画像の説明を挿入します

4 結論

1) この記事の核心は、画像 Transformer をトレーニングする際のパッチの多様性を促進し、それによってモデルの学習能力を向上させることです。この目的は主に 3 つの損失を提案することで達成されます。
2) この論文の経験は、Transformer モデルの構造を変更せずにパッチ表現を多様化することで、より大きくより深いモデルをトレーニングし、画像分類タスクでより良いパフォーマンスを得ることができることを示しています。
3) この論文は教師ありタスクについてのみ実験を行っています

おすすめ

転載: blog.csdn.net/weixin_43994864/article/details/123289613