CVPR2022《TransMix: ビジョントランスフォーマーのミックスに参加》

ここに画像の説明を挿入します
論文リンク: https://arxiv.org/pdf/2111.09833.pdf
コードリンク: https://github.com/Beckschen/TransMix

1. 動機

ここに画像の説明を挿入します
最近の多くの研究では、ViT ベースのネットワークは最適化が難しく、トレーニング データが不十分な場合は簡単にオーバーフィットしてしまうことがわかっています。この問題に対する簡単な解決策は、トレーニング プロセス中にデータ拡張および正則化手法を適用することです。その中でも、Mixup や CutMix などの Mix ベースの手法は、ViT ベースのネットワークの一般化に特に役立つことが証明されています。ただし、以前のミックスアップ ベースの方法には、ターゲットの線形補間比が入力補間で提案された比と一致する必要があると仮定する、基礎となる事前知識がありますこれにより、確率論的プロセスが拡張されたため、ミックスアップ イメージ内に有効なオブジェクトが存在しない場合があるにもかかわらず、ラベル スペース内にはまだ応答が存在するという奇妙な現象が発生する可能性があります著者は、すべてのピクセルが等しいわけではないため、上記の仮定は完全には正しくないと考えています。上の図 1 に示すように、背景のピクセルは、顕著な領域のピクセルほどラベル空間に寄与しませんこの問題を発見した研究もありますが、それらの方法は、入力レベルで最も説明的な部分を混合するだけで解決しており、入力に対するこの操作により、強調するスペースが縮小する可能性があります(混合画像に考慮する背景画像が少なくなる傾向があるため )、入力顕著領域を抽出するには、より多くのパラメーターまたはトレーニング スループットも必要になります

2. 貢献

この記事では、入力レベルで画像をより適切に混合する方法については説明しませんが、ラベルの割り当てを学習することで入力とラベル空間の間のギャップを軽減する方法に重点を置きます。具体的な貢献内容は以下の通りです。

  • 入力空間とラベル空間の間のギャップを埋めるために、この記事では、Vision トランスフォーマーのアテンション マップに基づいてラベルを混合するTransMixを提案します。アテンション マップの対応する入力画像の重み付けが高くなるほど、ラベルの信頼度も高くなります。TransMix は非常にシンプルで、ViT ベースのモデルに追加のパラメーターやフロップを導入することなく、わずか数行のコードで実装できます。
  • 実験結果は、この方法が ImageNet 分類のさまざまなスケールでさまざまな ViT ベースのモデルを継続的に改善できることを示しています。ImageNet での前処理に TransMix を使用した後、ViT-C ベースのモデルは、セマンティック セグメンテーション、ターゲット検出、インスタンス セグメンテーションにおいて優れた移植性も示しました。また、4 つの異なるベンチマークで評価した場合、TransMix はより堅牢なパフォーマンスを示しました。
    ここに画像の説明を挿入します

3. 方法

3.1 レビュー: CutMix データの強化

CutMix は、2 つの入力ラベルのペア( x A 、 y A ) (x_A、y_A) を組み合わせるシンプルなデータ拡張手法です。( ×y) ( x B , y B ) (x_B, y_B) ( ×ByB)新しいトレーニング サンプル( x ~ , y ~ ) (\tilde{x}, \tilde{y}) を(バツy~式は次のとおりです。
ここに画像の説明を挿入します
ここで、M ∈ { 0 , 1 } HWM \in \{0, 1\}^{HW}M{ 0 ,1 }H Wはバイナリ マスクで、2 つの画像から削除および埋められる位置を示します。1 はバイナリマスクです。⊙\odotは要素ごとの乗算、λ \lambdaλy A y_Ay混合ラベルの割合。
強化プロセス中、x B x_BでバツBx A x_Aからランダムにサンプリングされた領域を削除しますバツ A A Aを埋めるトリミングされたパッチは (rx, ry, rw, rh) (r_x, r_y, r_w, r_h)( r×rはいrr)、混合ターゲット割り当て係数λ \lambdaλはトリミング面積率rwrh WH \frac{r_wr_h}{WH}WH _rr

3.2 復習: 自己注意のメカニズム

Self-attention は入力行列x ∈ RN × dx \in \mathbb{R}^{N \times d}に作用します。バツRN × d、ここでN NNはトークンの数、dddは各トークンの次元です。xxを入力してくださいxは、重み行列wq ∈ R d × dq w_q \in \mathbb{R}^{d \times d_q} を使用して、クエリ、キー、値に線形にマッピングされます。wqRd × dq, wk ∈ R d × dk w_k \in \mathbb{R}^{d \times d_k}wRd × dwv ∈ R d × dv w_v \in \mathbb{R}^{d \times d_v}wvRd × dv,即q = xwqq=x_wqq=バツq ,k = xwkk=x_wkk=バツk v = x w v v=x_wv v=バツv,其中 d q = d k d_q = d_k dq=dクエリとキーを通じてアテンション マップ A ( q , k ) = S oftmax ( qk > k ) ∈ RN × N \mathcal{A}(q, k) = Softmax(q_k>\sqrt{k}) \in R を計算します。 ^{N×N}A ( q ,k )=ソフトマックス( q _ _ _ _ _>k RN × N、セルフアテンション操作の出力はvvv NNN 個のトークン特徴の加重合計。その重みはアテンション マップに対応します。gg
ここに画像の説明を挿入します
を使用します。g回をdk d_kに投影ddk d_kdそしてdv d_vdv次元的には、単一頭の自己注意を複数頭の自己注意に拡張できます。

3.3 トランスミックス

著者は、TransMix がアテンション マップの指導の下でミックスアップ ラベルを割り当てることを提案しました。アテンション マップは、特に自己注意の一部として計算されるマルチヘッド クラス アテンション A として定義されます。分類タスクでは、クラス トークンはクエリqqです。q、それに対応するキーkkkはすべての入力トークン、クラス アテンション A はクラス トークンから入力トークンへのアテンション マッピングであり、どの入力トークンが最終的な分類器に最も役立つかを要約し、クラス アテンション A を使用してラベルを混合することを提案します。

  • マルチヘッド クラス アテンション
    ビジョン トランスフォーマー (ViTs) 像x ∈ R 3 × H × W x \in \mathbb{R}^{3 \times H \times W}バツR3 × H × Wを分割して $p $ patch tokensxpatches ∈ R p × d x_{patches} \in \mathbb{R}^{p \times d} にバツパッチ_ _ _ _ _ _Rp × dでは、クラス トークンxcls ∈ R 1 × d x_{cls} \in \mathbb{R}^{1 \times d} を介してバツクラス_ _R1 × d はグローバル情報を集約します。ここで、dd はdは埋め込み寸法です。ViT は、パッチ埋め込みz = [ xcls , xpatches ] ∈ R ( 1 + p ) × dz = [x_{cls}, x_{patches}] \in \mathbb{R}^{(1+p) \times d に作用します。 }z=[ ×クラス_ _バツパッチ_ _ _ _ _ _R( 1 + p ) × dgg
    を使用した関数が与えられた場合gアテンションヘッドと入力パッチ埋め込みzzマッピング行列wq w_qを使用したzの変換器wq, wk ∈ R d × d w_k \in \mathbb{R}^{d \times d}wRd × dはマルチアテンション ヘッドをパラメータ化し、各ヘッドのクラス アテンションは次のように表現できます。
    ここに画像の説明を挿入します
    ここで、 q ⋅ k T ∈ R 1 × ( 1 + p ) q \cdot k^T \in \mathbb{R}^ {1 \times (1+p)}qkTR1 × ( 1 + p )は、クラス トークンがクエリであり、対応するキー値がすべての入力トークンA ∈ [0, 1] p A \in [0, 1]^p であることを[ 0 ,1 ]pは、クラス トークンからイメージ パッチ トークンへのアテンション マッピングであり、どのパッチが最終的な分類子に最も役立つかを要約します。アテンションに複数のヘッドがある場合、すべてのアテンション ヘッドを平均してA ∈ [0, 1] p A \in [0,1]^p を[ 0 ,1 ]p実装では、式 (6) の A は、アーキテクチャの変更を必要とせずに、最後の Transformer ブロックの中間出力として使用できます。

  • アテンション マップ A によるラベルの混合
    著者らは、CutMix で提案されている、式 (1) で定義されている入力混合プロセスに従います。次に、図AAに注目してください。Aの指導の下でλ \lambdaを再計算します。λ (y A y_Ay式(2)の比率):
    ここに画像の説明を挿入します
    ここで↓ ( ⋅ ) \downarrow(\cdot)( )は、オリジナルのMMHW HWからのMHWpp変換しますpピクセルの最近傍補間ダウンサンプリング簡単にするために、式 (7) の次元解凍は無視されていることに注意してください。このようにして、ネットワークはアテンション マップ内の各データ ポイントの応答に基づいてラベルの重みを動的に再割り当てする方法を学習できます。アテンション マップによってより適切に焦点が絞られた入力には、ハイブリッド ラベルでより高い値が割り当てられます。

3.4 擬似コードの実装

ここに画像の説明を挿入します

4. いくつかの実験結果

4.1 3 つのタスクの結果の比較

  • ImageNet 分類
    ここに画像の説明を挿入します
  • セマンティック セグメンテーション タスクへの移行
    ここに画像の説明を挿入します
  • オブジェクト検出およびインスタンスのセグメンテーションタスクへの移行
    ここに画像の説明を挿入します

4.2 堅牢な分析

  • 咬合ここに画像の説明を挿入します

  • 空間構造の変化に対する敏感さ
    ここに画像の説明を挿入します

  • 自然な対立と分布外の検出
    ここに画像の説明を挿入します

4.3 一般化研究

ここに画像の説明を挿入します

4.4 最先端の Mixup 亜種との比較

TransMix は、他のすべての Mixup バリアントよりも大幅に優れています。従来の CutMix と比較すると、SaliencyMix や Puzzle-Mix などの顕著性ベースの方法では、ビジュアル Transformer の利点が得られません。これらの方法は調整が面倒で、新しいアーキテクチャに適用するのが難しいと分析しました。たとえば、Attentive-CutMix では、顕著性マップを抽出するために外部モデルを導入するため、余分な時間がかかるだけでなく、パラメーターのオーバーヘッドも発生します。Puzzle-Mix は、1 回のトレーニング反復で 2 回前後に進むため、実行が最も遅くなります。比較すると、TransMix は 2.1% の大幅なパフォーマンス向上を達成し、トレーニング スループットが最も高く、パラメーターのオーバーヘッドがありません。
ここに画像の説明を挿入します

4.5 TransMix の視覚化

最初の行は、画像 A の前景が画像 B のパッチによって遮られているため、古い領域ベースのラベル割り当てが直観に反していることを示しています。TransMix は、Transformer の注意を通じてラベル割り当てを修正します。TransMix は、識別可能なきめの細かい属性が表示される場合 (たとえば、ポメラニアンの頬と目が 2 行目に表示される) にラベルの重みを高めることができます。
ここに画像の説明を挿入します

4.6 アブレーション実験

ここに画像の説明を挿入します
ここに画像の説明を挿入します

5。結論

この論文では、著者らは、Vision トランスフォーマーにアテンション ガイダンスを備えた Mixup タグを割り当てる、シンプルだが効果的なデータ拡張手法である TransMix を提案します。TransMix は、Transformer のアテンション マップを自然に活用して、混合オブジェクトに信頼性を割り当て、ImageNet 上で DeiT-S と大きなバリアント XCiT-L の精度を 0.9% 向上させます。TransMix の有効性、移植性、堅牢性、多用途性を検証するために、合計 10 のベンチマークで広範な実験が行われています。

これは、強化されたビジュアル トランスフォーマーの方向にミックスアップ ベースの手法を前進させる最初の作品であるため、次の制限があります。

  • TransMix はクラス アテンションに強く依存しているため、クラス トークンのないバックボーン ネットワークを適切に処理できません。この制限は、アーキテクチャを変更することで緩和できます。
  • TransMix では、アテンション マップが入力と空間的に位置合わせされている必要があります。これは、変形ベースのトランスフォーマー (PSViT、DeformDETR など) と互換性がない可能性があることを示唆しています。将来的には、変形されたオフセット グリッドを使用してアテンション マップを入力空間に配置することで、この問題を解決できる可能性があります。
  • 鋭い長方形の境界を持つトリミングされたパッチと背景の違いは非常に明らかであるため、Transformer は自然にトリミングされたパッチに興味を持ち、そのパッチに注意を払う可能性があります。そのため、パッチに有用な情報が含まれているかどうかに関係なく、基本的な注意の重み。この現象は、トリミングされたパッチ エッジによって 1 次/2 次の特徴統計が強化されるため、以前の顕著性に基づく方法でも発生します。

おすすめ

転載: blog.csdn.net/weixin_43994864/article/details/123569116