論文のリンク: https://arxiv.53yu.com/pdf/2110.09419.pdf
コードのリンク: https://github.com/sarthmit/Compositional-tention (論文「attention is all you need」
からの画像)
- 標準的なマルチヘッド セルフ アテンション
1) キーと値のアテンション
クエリとキーと値のペアのセットが与えられると、キーと値のアテンションは、各クエリとキー セットの間のスケーリングされたコサイン類似度を計算します。この類似性スコアにより、対応するクエリの出力における各値の寄与 (重み) が決まります。
与えられた入力X ∈ RN × d X\in R^{N \times d}バツ∈RN × d , クエリ, キー, 値は線形変換後にそれぞれ得られます. 式は次のとおりです.
各クエリに対して, スケーリングされたコサイン類似度 (スケーリングされたドット積と呼ばれます) を使用して各キーの類似性スコアを計算し, ソフト アテンション ウェイトを与えます.
2) マルチヘッド アテンション メカニズムは、値をhh
など)h ) 独立したキーと値のアテンション メカニズムが並列に接続され、モデルに異なる位置に共同でアテンションを行う機能を提供し、モデルの表現能力を向上させます。これらの複数のヘッドによって生成された出力は連結され、学習可能な行列を使用して入力次元に線形投影されます。 ここで、各
headi= A tention ( Q i , Ki , Vi ) {head}_i = Attend(Q_i, K_i) 、V_i)彼は_ _私は=注意( Q _ _ _ _ _ _ _私は、K私は、V私は)。
1. 動機
上記のことから、標準的なマルチヘッドセルフアテンションでは、各ヘッドがクエリキー (検索) と値 (取得) の間の厳密なマッピングを学習することがわかります。これにより、次の 2 つの問題が発生します: 1) 特定のタスクでの学習につながる冗長パラメータ
2) 一般化を妨げる
2.方法
上記の問題を解決するために、本論文では、標準的なヘッド構造に代わる、検索と取得操作を柔軟に組み合わせることができる構成的注意を提案します。つまり、クエリキー検索メカニズムは固定値の取得行列に束縛されなくなりましたが、ヘッダーの複数の組み合わせから注目を集める、共有プールから動的に選択されるアクセス可能な値のマトリックス。
- 検索および取得コンポーネント
1) 検索
検索は、クエリ行列とキー行列、つまりそれぞれW q W_qによってパラメータ化されます。WqそしてWkW_kWk。これらのパラメータは要素ペアxj x_jを定義します。バツj和xk ∈ X x_k \in Xバツk∈X間の互換性尺度の概念
(Q = XW q Q = XW_q)Q=XW _q,K = XW k K = XW_kK=XW _k、上記の計算により、要素xj x_jが得られます。バツj他の要素を含むxk x_kバツk検索パラメータで定義された互換性基準に基づく互換性。
2) 取得は
値行列W v W_vを取得します。Wvパラメータ化された値マトリックスはXXを表します下流タスクに関連し、アクセスする必要がある X の入力要素のフィーチャ タイプ:
V = XW v V=XW_vV=XW _v。各取得では入力 xk から x_k が定義されることに注意してください。バツkでアクセスされるプロパティのタイプ。任意の検索結果を入力として受け取ることができます。
3) 検索と取得の厳密なペアとしてのマルチヘッド アテンション
上記の定義によれば、標準的なマルチヘッド アテンションがどのように検索と取得の厳密なペアを構成し、それによって固定のエンドツーエンドの機能を学習するかがわかります。最適化中の属性ペア。実際には、h 個のヘッドは h 個の異なる検索と検索のペアで構成されており、i 番目の検索は i 番目の検索でのみ実行されます。したがって、強気の注意は式 4 と式 5 の特殊なケースに相当します。
- 厳格な相関の欠点
このような厳格なマッピングを仮定することは常に理想的であるとは限らず、場合によっては冗長パラメータの容量と学習能力の低下につながり、それによってシステムをより良く一般化する機会が失われます。各ヘッダーに関連付けられた検索では、機能 (クエリキー行列W q W_qによって定義される) が定義されることに注意してください。WqそしてWkW_kWk定義)、この特徴はターゲット間の互換性に基づいて計算されます。さらに、各ヘッドの検索により、モデルは検索ターゲット (値行列W v W_vによって定義される) から特定の特徴にアクセスできるようになります。Wv意味)。これに続いて、2 つのタイプの冗長性について説明します:
(a) 冗長なクエリキー行列の学習につながる検索冗長性、
(b) 冗長な値行列の学習につながる検索冗長性。
上記の図 1 に示す簡単な例を使用して、これら 2 つの冗長性を共同で強調します。この例では、属性 (形状、色、位置) を持つ 3 つのターゲットが異なる質問の対象になっています。(a) では、モデルは色に基づいて検索し、それに応じて形状情報を取得することを学習する必要があります。(b) では、モデルは形状に基づいて検索し、位置情報を取得することを学習する必要があります。このタスクでは、標準的なマルチヘッド アテンション (中央の行) は、それぞれ (a) と (b) を表す 2 つのヘッドを学習する必要があります。© の質問に答えるには、モデルは色に基づいて検索し、位置を取得する必要があります。ヘッド 1 が学習したこと (a) は色に基づいて検索することであり、ヘッド 2 が学習したこと (b) は位置に基づいて取得することですが、これらを組み合わせる方法はありません。したがって、ヘッド 1 の検索とヘッド 2 の取得を行うには、別のヘッドが必要になります。この学習された知識は既にヘッド 1 とヘッド 2 に別々に存在するため、パラメーターの冗長性が生じ、知識をより効率的に分解する機会を逃します。
図 1 のシナリオは非常に理想的です。なぜなら、マルチヘッド アテンションは 1 つの特徴に対する検索/取得を制限せず、より詳細なソフトの組み合わせを可能にするからです。これは単純な例に当てはまるかもしれませんが、厳密に学習された関連付けの危険性を浮き彫りにしています。これは、モデルが何を学習するかに関係なく、学習された知識の再結合を制限し、冗長なパラメーターにつながり、OoD の一般化を制限する可能性があります。以下では、S × RS \times Rを許容することにより、次のことを提案します。S×この根本的な制限を軽減するためのRのようなペアリング、SSS は検索タイプの数を表し、RRR は検索タイプの数を表します。 - 構成的アテンションは、
より柔軟で動的なマッピングをサポートするために、静的な検索と取得のペアを緩和する新しいアテンション メカニズムを提案します。これを行うために、ここではヘッドの概念が放棄され、上で定義したように、独立して再編成された検索と取得に置き換えられます。核となる革新は、これら 2 つのコンポーネントを組み合わせる方法、つまりクエリ キー アテンションを使用した検索にあります。
headと同様に、最初にSSを定義しますS並列検索メカニズム。つまりSSがSの異なるクエリキーのパラメータ化W qi W_{q_i}Wq私は和 W k i W_{k_i} Wk私は。各検索の出力は、式 4 に示すように定義されます。基本的に、各検索について、iiiが得られるのでRR
を定義するRRに対応するRの異なる検索メカニズムR違うW vj W_{v_j}Wvjマトリックス。これらの行列は、入力からさまざまな属性を取得するために使用されます。正式に要約すると、
ここでV j V_jVjさまざまなプロパティへのアクセスが強調表示されます。そして、各検索に対応して、可能なすべての検索が完了します。式 5 と同様に、「
このステップでは、検索ごとにすべての仮説的な検索が得られます。このステップでは、検索ごとに 1 つの検索をインスタンス化する必要があります。」と定義されています。これは、検索クエリQ ‾ i \overline{Q}_iを使用してインスタンス化されます。Q私はおよび検索キーK ‾ ij \overline{K}_{ij}Kイジ計算は二次注意メカニズムによって完了し、次のように取得できます。
ここで、パラメータW ‾ qi ∈ R d × dr \overline{W}_{q_i} \in R^{d \times d_r}Wq私は∈Rd × dr是 i i iでインデックス付けされた検索ごとに異なる行列W ‾ k \overline{W}_k)Wkこれらを組み合わせて、検索と取得の間の組み合わせを推進するために使用されます。Q i Q_iを行列化しますQ私は从R d × dr R^{d \times d_r}Rd × drRN × 1 × dr R^{N \times 1 \times d_r}に伝播RN × 1 × dr、そしてK ‾ i ∈ RN × R × dr \overline{K}_i \in R^{N \times R \times d_r} を定義します。K私は∈RN × R × drしたがって、これらの検索クエリとキーを使用すると、各検索に必要なインスタンス化は、最後の 2 つの軸上の転置位置
によって決まります。
したがって、検索ごとにiii、softmax は、すべての可能な検索にアテンションの重みを与え、このソフト アテンション メカニズムを通じて勝利した検索をインスタンス化します。最後に、マルチヘッド アテンションと同様に、これらの並列検索の出力は、それらを連結し、
Wo ∈ RS dv × d W^o \in R^{Sd_v \times d} であるWああ∈RSd_v× d . このメカニズムでは、各検索の検索選択は固定されておらず、Q ‾ i \overline{Q}_iQ私は和K ‾ i \overline{K}_iK私はそれぞれ動的に調整されます。図 2 は、計算グラフを視覚的に示しています。
構成アテンションにより、モデルは次のことが可能になります:
(a) それぞれ異なる検索時間と取得時間SSSとRRR ;
(b) 各検索の共有検索数の動的選択;
(c)S × RS \times RS×R(検索 – 検索)ペア表現能力。したがって、ここで構成的注意に重点を置くことにより、検索と検索のもつれを解きほぐし、複数の頭による注意の冗長性を解決することができます。
3. いくつかの実験結果
- 検索タスク
- 関係推論
- 正三角形検出
- マルチタスク画像分類
- ESBNタスクにおける論理的推論
- SCANデータセット
- 言語モデル
4 結論
1) この研究では、多頭注意が再考され、検索と検索の 2 つのステップに分解され、検索と検索のメカニズム間の厳密な関連付けによる欠点が強調されます。
2) この剛結合がパラメータの再利用性を阻害し、モデルの表現力を低下させるという問題を軽減するために、値検索機構を利用して検索と検索を柔軟に組み合わせる新たな機構を提案する。