14日間の深科学学習タスク2「学習ハンズオン」ハンズオン:注意のメカニズムとSeq2seqモデルノート

                                                  注意力机制
     解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码,然后将其传递给解码器以生成目标序列。然而这种结构存在着问题,尤其是RNN机制实际中存在长程梯度消失的问题,对于较长的句子,我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息,所以随着所需翻译句子的长度的增加,这种结构的效果会显著下降。
     ![在这里插入图片描述](https://img-blog.csdnimg.cn/20200219214555216.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQyOTg0NTQy,size_16,color_FFFFFF,t_70)
     与此同时,解码的目标词语可能只与原输入的部分词语有关,而并不是与所有的输入有关。例如,当把“Hello world”翻译成“Bonjour le monde”时,“Hello”映射成“Bonjour”,“world”映射成“monde”。在seq2seq模型中,解码器只能隐式地从编码器的最终状态中选择相应的信息。然而,注意力机制可以将这种选择过程显式地建模。

注目機構フレーム
照会(クエリ)とキーオン(キーと値のペア):注目重み付け手段の共通プールで、入力は、2つの部分から構成されています。ki∈Rdk、vi∈Rdv。クエリq∈Rdq、注目層同じ寸法o∈Rdvの出力値を取得する。問合せについては、注目層が各キーと重量と焦点スコアを算出する正規化ベクターは、加重和の出力値は、計算量を持つ各キー値対応の重量です。

まず、我々は、すべての注目スコアA1、...、によって計算できるクエリのαおよび類似度計算キーの機能を持っていることを前提とし、出力を計算するために、

AI =α(Q、KI)。

我々は注意ソフトマックス体重を取得するための関数を使用します。

B1、...、BN =ソフトマックス(A1、...、)。

最終的な出力は、加重和の値は次のとおりです。

=Σiは= 1nbivi O。
ここに画像を挿入説明
attetion層は、このセクションの残りの部分では、スコア関数を選択された別の区別、我々は2つの一般的なノート層を議論し、内積注意多層パーセプトロン注意

オリジナルの記事は、0を発表 ウォンの賞賛0 ビュー17

おすすめ

転載: blog.csdn.net/qq_42984542/article/details/104401430