必要なのは注意だけです:Transformer の核となるアイデア

導入

このブログ投稿では、今世紀で最も革新的な論文、「Attention Is All You Need」(Vaswani et al.) について説明します。まず、セルフ アテンション メカニズムを紹介し、次に Transformer のアーキテクチャの詳細に移ります。前回のブログ投稿「Seq2Seq からアテンションへ: シーケンス モデリングの革命」で、アテンション メカニズムとバダナウ アテンションの起源について説明しました。このブログでは、以前の情報に基づいて説明します。前回の記事をまだチェックしていない方は、ぜひチェックしてみてください。Bahdanau アテンション モデルは、2 つの RNN とアテンション メカニズムを使用して、エンコーダーの隠れた状態に重みを割り当てます。「必要なのは注意だけです」という論文で、著者はすべての RNN を削除しました。彼らは、再帰を使用せず、完全に自己注意メカニズムに依存する新しいアーキテクチャを導入しました。まず、自己注意のメカニズムが何であるかを説明しましょう。

自己注意のメカニズム

自己注目メカニズムにより、モデルはすべての位置に同時に注目することで、シーケンス内の異なる位置間の依存関係を捉えることができます。前回のブログでは、クエリとキーと値のペアを使用してアテンション スコアを計算する方法について説明しました。アテンション スコアは、特定のクエリに対する各キーと値のペアの重要性または関連性を決定します。セルフ アテンション メカニズムはこのメカニズムを拡張し、外部入力を必要とせずに単一シーケンス内で動作できるようにします。

ここに画像の説明を挿入します
上の図では、自己注意のメカニズムを確認できます。この図を左から右に説明していきます。まず、入力 x があります。この入力をトレーニング可能な重み行列 (Wq、Wk、Wv) と乗算します。出力として、クエリ、キー、および値の行列を取得します。クエリ マトリックスとキー マトリックスを使用して、それらの類似性を見つけます。上の画像ではドット積のみを使用していますが、Transformer アーキテクチャではドット積もスケールします。この内積の出力はアテンションの重みです

おすすめ

転載: blog.csdn.net/iCloudEnd/article/details/132773367