2022 CVPR : セルフアテンションとコンボリューションの統合について

論文
github
gitee

1. 概要

  • 畳み込み演算とアテンション メカニズムは両方とも表現を学習するために使用でき、この 2 つの間には基本的な関係があります。ある意味、両方のパラダイムの計算のほとんどは、実際には同じ操作で実行されます。従来のk × k \begin{array}{c} k\times k \end{array}k×畳み込みは k 2 \begin{array}{c} k^{2} \end{array}に分解できますk21×1 の畳み込み、シフトおよび合計の演算。次に、セルフ アテンション モジュール内のクエリ、キー、および値の投影を複数の 1×1 畳み込みとして解釈し、アテンションの重みと値の集計を計算します。ハイブリッド モデルは、セルフ アテンションと畳み込み (ACmix) の両方の利点を享受しながら、純粋な畳み込みモデルまたはセルフ アテンション モデルと比較して計算オーバーヘッドが最小限に抑えられます。

2. はじめに

  • 畳み込み演算では、特徴マップ全体で共有される畳み込みフィルターの重みに従って、局所的な受容野で集計関数が使用されます。この特性により、画像処理に重大な誘導バイアスが生じます。アテンション モジュールは、入力特徴のコンテキストに基づいて加重平均演算を適用します。アテンションの重みは、関連するピクセルのペア間の類似性関数によって動的に計算されます。この柔軟性により、アテンション モジュールはさまざまな領域に適応的に焦点を合わせ、より有益な特徴をキャプチャできるようになります。
  • 具体的には、まず 1×1 畳み込みを使用して入力特徴マップを投影し、中間特徴の豊富なセットを取得します。次に、中間特徴が再利用され、さまざまなパラダイムに従って、つまりそれぞれ自己注意と畳み込みによって集約されます。このようにして、ACmix は2 つのモジュールの利点を享受し、高価な投影操作のコストを 2 回効果的に回避します。

3. 方法

3.1 自己注意と畳み込みの関係

  • 自己注意と畳み込みモジュールの分解の間には密接な関係があります。最初のステージは特徴学習モジュールで、2 つのメソッドは 1×1 畳み込みを実行して特徴をより深い空間に投影することで同じ操作を共有します。一方、第 2 段階は、学習パラダイムの違いはあるものの、特徴量の集約プロセスに相当します。
  • 計算の観点から見ると、畳み込みモジュールおよびセルフアテンション モジュールのステージ 1 で実行される 1 × 1 畳み込みには、理論的な FLOP と、チャネル次元サイズ C に関連するパラメータの二乗複雑度が必要です。対照的に、第 2 段階では、両方のモジュールが軽量であるか、ほとんど計算を必要としません。
  • したがって、上記の分析は、(1) 畳み込みとセルフ アテンションが、1×1 畳み込みを通じて入力特徴マップを投影するという同じ操作を実際に共有しており、これが 2 つのモジュールの主な計算オーバーヘッドでもあることを示しています。(2) 意味論的な特徴を捉えるためには重要ですが、第 2 段階の集計操作は軽量であり、追加の学習パラメータは生成されません。

3.2 自己注意と畳み込みの統合

ACミックス

  • ACmix は 2 つのステージで構成されます。
      最初のステージでは、入力特徴が 3 つの 1×1 畳み込みを通じて投影され、それぞれ N ブロックに再形成され、3×N 特徴マップの中間特徴セットが生成されます。
      第 2 段階では、自己注意と畳み込みの 2 つのパスがあります。セルフ アテンション パスの場合、従来のマルチヘッド セルフ アテンション モジュールに従って、対応する 3 つの特徴マップがクエリ、キー、および値として使用されます。
      カーネル サイズが k の畳み込みパスの場合、光完全結合層が使用され、k² 特徴マップが生成され、同時にシフト演算と集約が実行されます。
      最後に、2 つのパスの出力が加算され、強度は 2 つの学習可能なスカラーによって制御されます。
    F out = α F att + β F conv \begin{array}{c} F_{out} = \alpha F_{att} + \beta F_{conv} \end{array}Fあなた_=F _

おすすめ

転載: blog.csdn.net/u013308709/article/details/129289169