FLatten Transformer: 集中リニア アテンション モジュール

線形アテンションは、Softmax を 2 つの独立した関数に分離することで、アテンションの計算順序を (クエリ・キー)・値からクエリ・(キー・値) に調整し、全体の計算複雑さを線形に軽減します。ただし、現在の線形アテンション手法は、ソフトマックス アテンションよりもパフォーマンスが大幅に悪く、マッピング関数の追加の計算オーバーヘッドが発生する可能性があります。
ここに画像の説明を挿入します

まず、以前の線形アテンション モジュールのアテンション ウェイト分布は比較的滑らかで、最も有益な特徴の処理に集中する能力に欠けています。解決策として、クエリとキーワードの特徴の方向を調整して注意の重みをより区別しやすくする単純なマッピング関数を提案します。第 2 に、注目行列のランクが低下すると、線形注目特徴の多様性が制限されることに注意します。ランク復元モジュールは、元のアテンション行列に対して追加の深さ畳み込み (DWC) を実行することで、行列のランクを復元し、さまざまな場所での出力特徴の多様性を維持するのに役立ちます。

焦点合わせ能力
以前の研究では、セルフ アテンションの計算において、Softmax が非線形の重み生成メカニズムを提供し、モデルがいくつかの重要な特徴に焦点を合わせられるようにすることが指摘されていました。以下の図に示すように、この記事では DeiT-tiny モデルに基づく注目の重み分布の可視化結果を提供します。ソフトマックス アテンションは、より集中的でシャープなアテンション ウェイト分布を生成し、前景オブジェクトによりよく焦点を合わせることができますが、線形アテンションの分布は非常に平均的であるため、出力フィーチャがすべてのフィーチャの平均に近くなることがわかります。より有益な機能に焦点を当てることができます。
ここに画像の説明を挿入します

ソフトマックスの注意

ここに画像の説明を挿入します

リニアアテンション

線形アテンションは、計算の複雑さを O(N2) から O(N) に制限する効率的な代替手段と考えられています。具体的には、慎重に設計されたカーネル関数が、元の類似度関数の近似として導入されます。

ここに画像の説明を挿入します

集中的な直線的注意

1. 集中力
ここに画像の説明を挿入します

ここに画像の説明を挿入します
2. DWC 機能の多様性

集中力に加えて、機能の多様性も直線的な注意力のパフォーマンスを制限する要因になります。この記事では、DeiT-tiny に基づいて完全なアテンション マトリックスを視覚化し、マトリックスのランクを計算し、Softmax アテンションと線形アテンションを比較します。図からわかるように、ソフトマックスの注意力はフルランク注目マトリックスこれは、モデルによって抽出された特徴の多様性を反映しています。ただし、直線的な注意は得られないフルランク注目マトリックスこれは、異なる行の重みの間に冗長性があることを意味します。
ここに画像の説明を挿入します
線形アテンション行列のランクは、各ヘッドの次元 d と特徴の数 N の小さい方によって制限されます。

ここに画像の説明を挿入します

自己注意の出力は、同じ値セットに対するこれらの重みの重み付けされた組み合わせによって取得されるため、重みの均一性は必然的にモデル出力の多様性の低下につながり、それによってモデルのパフォーマンスに影響を与えます。
ここに画像の説明を挿入します

ここに画像の説明を挿入します

ここに画像の説明を挿入します
ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/qq_44859533/article/details/135209273