【ICCV2023】ビジョントランスフォーマー向けトークンアテンションの堅牢化

ビジョントランスフォーマーのトークンアテンションの堅牢化

論文: https://arxiv.org/abs/2303.11126

コード: まだオープンソースではありません

解釈: ICCV 2023 | トークンの過度のフォーカスによりアテンション メカニズムの弱点が明らかになり、2 つのモジュール設計によりビジュアル トランスフォーマーの堅牢性が強化 - Zhihu (zhihu.com)

まとめ

Vision Transformer は、画像分類などのタスクでは優れたパフォーマンスを発揮しますが、ノイズやブラーなどの一般的な画像の乱れに直面すると、パフォーマンスが大幅に低下します。この目的のために、本論文は、ViT の重要な要素である自己注意メカニズムに関する研究と分析を実施し、現在の視覚変換モデルが自己注意メカニズム、つまり、注意メカニズムはいくつかの重要なトークンに過度に依存していますただし、これらのトークンは画像の摂動に対して非常に敏感です。過集中問題を回避し、モデルの堅牢性を向上させるために、この論文では、トークン認識平均プーリング (TAP) と注意多様化損失 (ADL) という2 つの一般的なテクノロジーを提案しています。

  • Token-aware Average Pooling (TAP) モジュールは、各トークンのローカル近傍がアテンション メカニズムに参加することを奨励します。具体的には、TAP は各トークンの平均プーリング スキームを学習し、近隣の潜在的に重要なトークンの情報を適応的に考慮できるようにします。
  • アテンション多様化損失 (ADL) は、出力トークンに、少数のトークンのみに焦点を当てるのではなく、異なる入力トークン セットからの情報を集約することを強制します。これは、異なるラベルの注目ベクトル間の高いコサイン類似性にペナルティを課すことによって実現されます。

これらの方法は、トレーニングのオーバーヘッドをほとんど増加させることなく、ほとんどの Vit アーキテクチャに適用でき、分類の精度と堅牢性を大幅に向上させることができます。

注意メカニズムにおけるトークンのオーバーフォーカス現象

 この記事では、FAN アーキテクチャを例として、FAN の最後の層のアテンションをアテンション マトリックスとして視覚化します。i 番目の行は、i 番目の出力トークンがどの入力トークン (列) に「参加」しているかを示します。赤が濃いほど、注目スコアが高くなります。マルチヘッドセルフアテンションの場合、マトリックスはアテンションヘッドを平均することによって視覚化されます。 

図 1 からわかるように、通常、列方向の注目は非常にまばらです。つまり、ほとんどの入力トークンが注目されず、各出力トークンは同じ少数の重要な入力トークンのみに注目しますこの記事では、この現象を「トークンのオーバーフォーカス」と呼びます。ただし、ガウス ノイズなどの干渉に直面すると、モデルの注意が完全に他の異なるトークンに移ってしまいます (図 1、2 番目の列)。これは、元のトークンが安定した情報を取得していないことから理解できます。さらに定量的な分析により、同じ画像のクリーンなバージョンとガウスノイズを含むバージョンの間のアテンションマップのコサイン類似性が非常に低い、つまり同じ画像入力の場合、アテンションが非常に劇的に変化することがわかりました。これは、標準的な自己注意メカニズムが入力摂動に対して非常に不安定であることを示しています。著者らは、この現象が DeiT や RVT などのさまざまなアーキテクチャに存在し、セマンティック セグメンテーションなどのモデルにも現れることを発見しました。

方法

トークンのオーバーフォーカス問題を解決するために、この論文では、アテンション メカニズムの安定性と堅牢性を向上させるための 2 つの一般的な手法を提案します。 (1) 各トークンのプーリング領域を学習して、より多くのデータを収集できるようにするトークン認識平均プーリング (TAP) を提案します。トークンはアテンションの計算に参加します。(2)異なるトークン間の注意ベクトルの差を最大化し、多様性を改善するために、注意多様化損失 (ADL) が提案されています。

トークン対応の平均プーリング

このメソッドは、より多くの入力トークンがセルフ アテンション メカニズムに参加することを奨励しようとします。つまり、アテンション マップでスコアの高い列をより多く取得しようとします。この目的を達成するために、このペーパーでは、トークン自体に重要な情報が含まれていない場合に備えて、各入力トークンがそのローカル近傍から有用な情報を明示的に集約することを推奨しています。表 1 は、セルフアテンションの前にローカル集約を導入すると堅牢性が向上することも示しています。これらのメソッドは、固定の畳み込みカーネルまたはプーリング領域をすべてのトークンに適用します。ただし、通常、トークンは互いに異なるため、各トークンには特定のローカル集約戦略が必要です。このペーパーでは、適切な近傍サイズと集約戦略を選択するために適応的なアプローチを採用しています。 

上記の考えに基づいて、この記事では、各トークンがローカル アグリゲーションに適切な領域を選択できるようにする Token-aware Average Pooling (TAP) モジュールを提案します。具体的には、TAP は各トークンに対して平均プーリングを実行し、プーリング領域を適応的に調整します。図 2 に示すように、TAP はマルチブランチ構造を利用して複数のブランチで加重加算を実行し、各ブランチには特定のプーリング領域があります。単純にコンボリューションカーネルサイズを変更するのと同様に、TAP は拡張率を変更することでプーリング領域を調整します。主な観察は、拡張なしで大規模なコンボリューション カーネルを平均的にプーリングすると、隣接するプールされた領域間で非常に大きな重複が生じ、出力トークンに重大な冗長性が生じるということです。たとえば、表 1 では、AvgPool5x5 では精度が約 1.2% 大幅に低下します。

これらの観察に基づいて、この論文では、さまざまな拡張率の平均プーリングに基づいて TAP を構築します。K 個の分岐が与えられた場合、範囲 d∈[0,K−1] の拡張率が考慮されます。このうち、d=0 は恒等マッピング、つまり計算が存在しない、つまりローカル集約が存在しないことを意味します。最大拡張率はハイパーパラメータによって決まります。TAP には、許容される拡張率範囲内でどの拡張率を使用するかを予測する軽量の拡張率予測機能が含まれています (つまり、図 2 のどの分岐か)。この予測子は非常に効率的であり、図 2 の特徴次元を C から K に削減するため、最小限の計算オーバーヘッドとモデル パラメーターのみを追加します。

アテンション分散損失

この方法は、出力トークン間の注意の多様性を改善すること、つまり、図 1 の異なる行が異なる入力トークンに対応するようにすることを目的としています。この目標に基づいて、この論文では、異なる出力トークン (行) 間の注意のコサイン類似性を減らすための注意多様化損失 (ADL) を提案します。

この目標には次の 2 つの問題があります。

(1)直接計算されたコサイン類似度は、注意力の違いを正確に反映できません。

たとえば、2 つの行 (つまり、出力トークン) に非常に素なアテンション パターンがある場合、コサイン類似度は 0 に近い、つまり類似度が低いと予想されます。ただし、フォローされていないトークンであっても、注意スコアはゼロにはなりません。N が大きい場合、ドット積を計算してこれらの値を加算すると、コサイン類似度がゼロより大幅に大きくなることがよくあります。

(2)コサイン類似度のペアごとの計算は非常に複雑です

上記の問題を軽減するために、ADL は次の戦略を採用しています。

しきい値を設定して、小さな値に対する注意をフィルタリングし、最も重要な値に焦点を当てて、類似性の計算をより正確にします。 1(∙) を指標関数とし、  A^{(l)}_ii 番目のトークンの注意ベクトル (行) とします。 ) l 番目の層にあります。\ できる トークンの数 N 、つまり に依存するしきい値を導入します \年/N 。したがって、閾値に設定された注意力​​は次のようになります。

 類似度を近似的に計算することで計算量を削減する: N 行間のペアごとのコサイン類似度を計算する 2 次の複雑さを回避するために、この論文では、個々の注目ベクトル\hat{A}^{(l)}_iと平均注目の

層を含むモデルを検討する場合、次の方法ですべての層にわたる ADL 損失を平均します。

この記事では、ADL と標準のクロスエントロピー損失を組み合わせ、ADL の重要性を制御するハイパーパラメーターを紹介します。 

 

実験

この論文では、画像分類タスクとセマンティック セグメンテーション タスクについて実験的検証を行っています。 

画像分類

この記事では、RVT と FAN という 2 つのアーキテクチャ (「ベース」モデル サイズ、つまり RVT-B と FAN-B-Hybrid を使用) に基づいてこのメソッドを構築し、ImageNet 画像分類タスクで複数の堅牢性ベースラインを使用して実行します。 . 評価する。TAP または ADL を単独で使用する場合でも、組み合わせて使用​​する場合でも、この論文の方法はモデルのロバスト性を効果的に向上させ、さまざまな外乱に対するモデルの耐性を強化できることが実験によって証明されており、この 2 つを組み合わせて使用​​すると、より良い結果が得られます。 

表 2. ImageNet でのモデル比較結果
表 3. ImageNet-C のさまざまな破損タイプでの FAN-B-Hybrid モデルに基づく破損エラーの比較

注意力の安定性と視覚化

注意の安定性分析:以下の図は、画像の摂動 (ガウス ノイズなど) に直面したときの注意の変化を視覚化しています。各例において、ベースライン モデルは深刻なトークンのオーバーフォーカスの問題に悩まされており、摂動に直面したときに重大な注意の変化を引き起こします。TAP を適用した後、モデルは周囲のより多くのトークンに注意を割り当てるため、トークンの過剰集中の問題がある程度軽減されます。ただし、クリーンな例と混乱した例の間で注意が移ることは依然として観察できます。ADL トレーニング モデルを適用すると、アテンションは残差構造と同様の対角パターンを示し、トークンが自身の情報を保持し、周囲の情報を集約できるようになり、類似した画像間のアテンション マップの安定性が大幅に向上します。TAP と ADL を組み合わせると、モデルは局所領域内での対角パターンの拡大をさらに促進し、トークンが自身の外側の近傍にさらに注意を払うようになり、それによってより強力な特徴が得られます。この論文では、ImageNet 全体のクリーンな例と摂動された例の間の注意のコサイン類似度を計算することにより、注意の安定性を定量的に評価します。結果は、この方法を追加したモデルが類似性スコアを大幅に改善することを示し、この方法が注意の安定性を効果的に改善できることを示しています。 

図 3. さまざまなモデルのアテンション マップの比較

各頭部の注意力と注意力の多様性の分析:次の図は各頭部の注意力マップを示しており、ベンチマーク モデルの頭部間の注意力は非常に類似しており、多様性が非常に低いことがわかります。対照的に、この方法の各ヘッドは大きく異なる注意パターンを生成する可能性があり、2 つのヘッドのみが斜めのパターンを示し、他のヘッドは全体的な注意を示します。ローカル フィルターとグローバル フィルターを組み合わせたこの設計により、頭部間の注意の多様性が向上します。定量的な結果からも、この方法により異なるヘッド間の類似性が大幅に減少する、つまり多様性が増加することが確認されています。

図 4. 最後の層のさまざまな頭部のアテンション マップ

セマンティックセグメンテーション

次に、本論文では、セマンティックセグメンテーションに関する提案手法の一般化能力を検証します。モデルは Cityscapes データセットでトレーニングされ、堅牢性はさまざまな摂動タイプを含む Cityscapes-C と、さまざまな悪条件下のストリート ビュー画像を含む ACDC で評価されます。実験では SegFormer と同様の設定を採用します。結果は、この記事の TAP および ADL 技術がセグメンテーション タスクによく一般化でき、堅牢性が大幅に向上することを示しています。 

表 4. Cityscapes 検証セット、Cityscapes-C、および ACDC テスト セットにおける各セマンティック セグメンテーション モデルのセグメンテーション mIoU の比較

 視覚的な比較:雪による外乱が存在する場合、ベースライン モデルは一部の道路エリアを検出できません。夜間の状況では、ベースライン モデルは車の一部を自転車に乗っていると識別し、予測には多くのアーティファクトが含まれていました。対照的に、私たちの方法はこれらの状況においてより強力なロバスト性を示し、主要なターゲットを正確に検出できます。

図 5. セグメンテーション結果の視覚的比較

アブレーション実験

さまざまなネットワーク アーキテクチャに適用すると、堅牢性の向上と精度の向上も実現できます。 

 

 ハイパーパラメータ K と λ の影響: TAP モジュールの分岐数 K は、各トークンが情報を統合できるプーリング領域のサイズを決定します。値が大きいほど、より多様なローカル情報を統合でき、堅牢性が向上しますが、大きすぎるとモデルへの負担が大きくなります。重みが大きいほど、ADL の効果を高めることができます。つまり、モデルが注意の分散をさらに改善することをより強く促すことができますが、λ が大きすぎると、標準的なトレーニング損失が抑制され、モデルのトレーニング効果が低下します。以下の図に示すように、TAP のみを導入した場合、値が増加するにつれて、この記事のモデルは常にベースライン モデルより優れており、最良の結果が得られますが、ADL のみを使用した場合、値が増加することが観察できます。小さすぎたり大きすぎたりすると、この方法の効果が減少します。K=4 および λ=1 に設定すると、堅牢性を確保しながら追加の計算コストとメモリ コストを最小限に抑えることができることが経験により証明されています。

図 6. さまざまな K および λ 設定がモデルの堅牢性に及ぼす影響

おすすめ

転載: blog.csdn.net/m0_61899108/article/details/132383278