【注意】紙の注意の要約:紙ベースのニューラル機械翻訳共同合わせおよび翻訳に学習することにより、

0注意背景の概要

エンコーダ・デコーダ

この背景からのこの部分は:https://blog.csdn.net/u012968002/article/details/78867203この記事はよく注意を説明しています。

エンコーダ・デコーダ、入力文は、デコーダの復号のための中間体Cのセマンティクスとして表さ非線形変換によって変換された、そのタスクは、文Cソースと中間以前に生成された履歴情報Y1、Y2の意味を表すことである...... YI -1、私は単語のYIを生成する生成時間、yi=g(C, y1, y2,...yi-1)各YIがそのように順次生成されているが、それはそう、システム全体の目標は、入力文に応じてソース文ターゲットを生成しています。

如果Source是中文句子,Target是英文句子,那么这就是解决机器翻译问题的Encoder-Decoder框架;
如果Source是一篇文章,Target是概括性的几句描述语句,那么这是文本摘要的Encoder-Decoder框架;
如果Source是一句问句,Target是一句回答,那么这是问答系统或者对话机器人的Encoder-Decoder框架。

テキスト処理、アプリケーションの広い範囲のエンコーダ・デコーダの分野における。
エンコーダ・デコーダフレームは広くテキストの分野だけでなく使用される、それはしばしば、音声認識、画像処理及び他の分野で使用されています。一般的に、音声認識およびテキスト処理は、通常、エンコーダRNNモデル、エンコーダCNN一般的に使用されるモデルを処理した画像を使用しています。

0.1自分自身を拡大

0.1.1注意カテゴリ説明

  • ソフトの注意

      软寻址,指的不像一般寻址只从存储内容里面找出一条内容,而是可能从每个Key地址都会取出内容,取出内容的重要性根据Query和Key的相似性来决定。
      之后对Value进行加权求和,这样就可以取出最终的Value值,也即Attention值。
      本论文用的就是soft-attention
    
  • ハード注意

      (后面看论文了再补过来。好像比较难,因为不能用反向传播)
    
  • 自己の注意

      指的不是Target和Source之间的Attention机制,而是Source内部元素之间或者Target内部元素之间发生的Attention机制,也可以理解为Target=Source这种特殊情况下的注意力计算机制。
      其具体计算过程是一样的,只是计算对象发生了变化而已。
    

    自己注意文で同じ単語での機能間の意味や構文上の特徴を捉えることができます。自己アテンション導入が容易な相互依存の文キャプチャ長い距離を特徴付け
    自己注目を直接算出ステップ連結リンクによって算出処理における文のうちの任意の2つの単語を指示するが、特徴の間の距離に依存する距離が大きく、これらの機能の効率的な使用に資する短縮されます。さらに加えて、自己のための注意の増加計算の並列処理は直接助けを持っています。これは、自己注目がますます広く使われている主な理由です。

  • coattention(後でまとめサプリメント)

  • 注意変圧器のすべての種類は、将来を補完します

開発の歴史の0.1.2注意

注意histroy
NLP注意:
以下に示すようエッセンス注目機能は、マップの(キー値キー-値)の一連の照会(クエリ)として説明することができます。変圧器は、典型的なK \ Q \ Vです。
で実際には、以下の図は、アイデアの注意メカニズム(主に書かれた注意機械翻訳では、この要約のメカニズムの本質を反映し、エンコーダ・デコーダの基本的な考え方に反映し、思考の注意のメカニズムの性質は、エンコーダ・デコーダのフレームワークとさらに抽象化から剥奪しました図明らかなように、特定の注意が)次のものを要約し、その後充填する
attenion5
3つのステップに分けることができる注目の計算に:

1. 第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;
2. 然后第二步一般是使用一个softmax函数对这些权重进行归一化;
3. 最后将权重和相应的键值value进行加权求和得到最后的attention。目前在NLP研究中,key和value常常都是同一个,即key=value。

1件の論文や技術革新

注意メカニズム(ソフト注意)この記事は非常に有益でNLPの最初のアプリケーションにおける機械翻訳の仕事、と考えるの注意メカニズムを完了します。

伝統的なRNNエンコーダ・デコーダの欠点:

1. 对长句子的处理不好(梯度消失)
2. 词对齐问题

紙とNMT天井は、エンコーダ・デコーダ・モデルを壊し- RNNは文Cの固定長ベクトルによって生成された全ての情報モードが記録されます。これは、位置合わせおよび翻訳を学習組み合わせ、それはベクターに単に入力配列であり、そして翻訳を復号する際に適応ベクトルのサブセットを選択します。このモデルは、より良い、長い文章を処理することができます。

この論文では、(ソフト)は、最も関連性の高い情報のソース文を検索する翻訳に単語を生成するたびに生成されたモデルは、モデルに基づいて、その後、場所を集中ソースセンテンスの文脈ベクトルの位置に関連し、前に製造しすべてのターゲットの単語ターゲットの単語を予測します。

出力ワードYするソースセンテンス内の注目と関心は、より関連性の高い部分(二重RNN隠されたHを生成することにより入力し、それによって隠れ層Cを生成し、関連する重み付けによってより多くの注意を集中するために、これらのダウン隠れ状態を格納)です。
そして、注意メカニズムが問題を解決する揃えること(質問論文はアライメントモデルを整列させる必要があり、従来の統計的機械翻訳は、モデルが同じ効果であることから、特殊なフレーズ整列し、注目を集めていますステップを実行する過程で、一般的です。)。
全体的に、紙は、開始価値注意メカニズムを学ぶことは難しいことではありません。

1.1注意キーを定義します

  • 自然言語処理モデル注意一般的なアプリケーションに整列モデル出力対象文章として文中の単語と入力ソースの各単語を理解されよう。これは、この論文の核となるアイデアです。
  • ターゲットの状態側の生成、すべてのコンテキストベクトルを入力として使用されます。
  • 注意コア・ポイントは、各ターゲット単語の翻訳である(または商品タイトルのテキストカテゴリを予測する)コンテキストで使用されるこの配慮は明らかに、より合理的である、異なっています。
  • アテンション・メカニズムソース値は、要素の加重和であります
  • 私たちのタスクアクティブなアプリケーションの要件と同時に概念自体の目的のこの論文の注目。注目は、しばしば相関宛先及びソースの程度として定義されます。しかし同時にタスクの多くは、ソースとターゲットの概念がありませんがあります。例えば、文書分類は、それは、それが唯一のオリジナルのみオリジナルではなく、ターゲット言語/エッセイ、およびそのような感情分析として(また、文書分類の最も単純な種類として見ることができる)です。したがって、この場合の注意にどのようにそれを起動するには?これは、名前が示すように、自分自身の内部機構の元に集中することで、内注意(または自己注意)と呼ばれる様々な技術を必要とします。
  • 送信元と宛先の
    モデルで定義された(1)分類、コンテキストベクトルとソース文
    (2)は、QA、ソースとターゲットの両方として2つの入力有し
    得ることができる(3)自己注目、ソースとターゲットが自分であるが、そのような情報を指すようないくつかの設定情報、

ほとんどの論文では、注目ベクトルは寸法がコンテキストの長さに等しい量(典型的にはソフトマックス出力)、です。より重要なより大きな文脈に代わって対応する位置の重み。

この記事から、上記https://blog.csdn.net/fkyyly/article/details/82492433

その他1.3

バイRNN、整列モデル:紙は、共通のフレームワークを持っています。使い方:方法の関節アラインメントと学習の翻訳が。
改善のための将来の地域は以下のとおりです。珍しい単語や単語のトレーニングコーパスの数のためのより良い表現にどのように表示されません。これは、改善するための場所で多くの注目のメカニズムを可能にします。

2整列学習や翻訳

一般構造:

  • エンコーダ:BE-RNN
  • docoder:エミュレートは、(原文の翻訳をデコードするときにシミュレート検索)翻訳をdocoding中にソース文を検索

2.1デコーダユニバーサル説明

手描きの注目構造
そしてとしての構造の説明は次の通りです。
本論文のデコーダ構造

Ciは常に、現在の世代の言葉に応じて変化します。例えば:
ご注意-C
エンコーダRNNモデルが使用される場合ここで、F2機能は、(例えば、エンコーダおよびデコーダをgoogle2016年底翻译系统用できるようLSTM 8層に使用される)、エンコーダ入力英単語にこの関数f2の結果を変換関数を表しますしばしば入力隠されたノード値Xiの状態の後に特定の時間に、Gは、エンコーダ代表的な合成中間体変換機能中間ワードの全体文の意味論的表現を表し、一般的に、Gは、構成要素の加重和の関数です。

Tx是句子source的长度。
αij代表在Target输出第i个单词时Source输入句子中第j个单词的注意力分配系数
hj则是Source输入句子中第j个单词的语义编码

言及されているアライメントモデルを私は入力位置と出力位置I jのモデルのためのマッチングの度合い、関連情報は、スコア関数で見つかった計算は、(ここで算出Eスコアはモデルの関数である)以下であることを理解し、いくつかの方法で:

1. 点积             dot  
2. 双线性函数       general
3. 拼接             concat
3. 隐层的MLP(感知机)(本文用这种) perceptron

ここで私は、取り付けられた2つのボーエン(https://blog.csdn.net/changdejie/article/details/90782040https://www.cnblogs.com/robert-dlut/p/8638283.html参照)算出した複数の類似度関数:

3注意スコア
注意
などの代わりに、図クエリ、キー、値では、クエリから見ることができますか?キーの代表?値の代表?参照パートIIは注意を要約したもの

2.1.2右重み行列確率分布の計算

確率分布が計算されます
単語がYIを生成する場合にRNNを使用するデコーダiは、一度に、であり、我々はYIの目標を生成するまでの時間を知ることができるI-1、I-1隠れ層ノード値のHi-1(紙出力時点Si-1)。

私たちの目的は、文中のYI単語「トム」、「チェイス」を生成するために、コンピューティング入力にある 「ジェリー」 YIための注意配分が確率分布である、それはターゲットと層の出力文I-1の時間を非表示にすることができます状態のHi-1(のSi-1)の関数F(元に対応する入力文の各単語のHJとRNN隠されたノード状態によって11 HJ(アップ記憶された各前HJ)、すなわち、と比較して、のHi- 1) -論文:EIJ =(SI-1、 HI) ターゲットワードを得るためには、各入力単語に対応する可能性のYIを整列します。
F関数は、異なる論文に異なるアプローチをとり、その後、値の分布に沿った確率分布値間隔の確率分布の注目を得る正規化関数Fソフトマックスを出力することができます。
つまり、各yiのために、各ソース単語の類似性の確率分布を得ることができます!(それは確率分布であるので、正規化するため)
多くの確率分布!入力文整列確率分布で生成されたターゲット文単語に対応する各単語の確率は、入力ワードが生成されることを理解し、ターゲット文単語します

アライメントモデルは、それによってパラメータを取得、普及にコスト関数を計算するために使用することができ、勾配が共同訓練モデルと全体の翻訳を整列させるために使用することができるように、フィードフォワードニューラルネットワーク、ソフト整列の直接計算のようにパラメータ化。

2.2エンコーダ:バイRNNを用いて配列について

使用双方向RNN再びconcate GET HJ、周りの情報XJのHJの焦点は、これだけの単語の背中をまとめることができ、前のHJの言葉を要約していません。
注釈シーケンスデコーダは、コンテキストvecotrを計算するために、使用され、位置合わせモデルです。

2.3構造の選択

上記は、活性化関数F RNNモデル、そのモデル、自由に選択することができるように、一般的な構造です。この記事では、以下の特定の選択を与えます:

2.3.1 RNN

RNN:ゲーテッド隠れユニット(リセットゲート+アップデート・ゲート)、ロジスティックシグモイド活性化関数と

各ステップデコーダ、+正規化単層MAXOUT単位での出力確率をカウントします

2.3.2アライメントモデル

Tx * TyのTxおよびTyの長さを計算するために考慮に入れたモデルを取るために整列モデルは、計算量、MLP多層パーセプトロンを減少させるために、二次の文の必要性です。来ることを学んでMLPの重み。

実験3

  • 数据集:CONCATENATE ニュース・テスト-
    2012年
    2013年のニュース・テスト開発(バリデーション)のセットを作成し、テスト用のモデルを評価するために
    3003行の文章で構成されていないWMT '14、からセット(ニュース・テスト-2014)トレーニングに存在する
    データ。
    我々は、各言語30,000最も頻繁に単語の候補リストを使用し
    、当社のモデルを訓練します。候補リストに含まれていない単語が特別なトークンにマッピングされています([UNK])。

  • モデル:トレーニングRNNsearch-30 \ RNNsearch-50モデルのパフォーマンス:

    • 前方及び後方RNNsearch RNN 1000は、条件付き確率を各ターゲット単語を計算するためのユニット、単MAXOUT隠れ層を有する多層ネットワークに隠れています。
    • SGD + Adadeltaモデルを訓練するために、minibach文は80、5日間のトレーニングであります
    • ビームサーチとの良好なトレーニングモデルの後、可能な最大の翻訳を見つけるために

4つの結果

結果図4.1

评估:BLEUはsocre
attenion BLEUスコア
これが注釈可視化することにより行われている
重みを。このことから、対象の単語を生成するときに、ソースセンテンス内の位置がより重要と考えられていたかを見ます。
RNNsearch-30及びRNNsearch-50 sentences.RNNsearch-50の長さに対してよりロバストである、特に、偶数長さ50以上の文章とは性能劣化を示しません。

結果4.2分析

4.2.1アライメント

ハード・アライメントと比較すると、翻訳のソフトアライメントがより有用であろう。。ソフトアライメントは、両方の-ATモデルの外観[時]と[人]にさせることで当然、この私たちの問題を解決しているので
ソフトアライメントの利点:

1.关注多个part从而找出正确翻译
2.处理不同长度的句子

5まとめ

拓展了基础的エンコーダ、デコーダ、让模型(ソフト)ターゲットワードを生成する際に、エンコーダによって計算された、入力単語のセット、又はそれらの注釈を検索します。
それは唯一の次のターゲットワードの生成に関連する情報のモデルのフォーカスをすることができます。モデルは正確に関連する言葉、またはその注釈を各ターゲット単語を揃えることができます。

今後の課題:

  • より良い未知の取り扱いや珍しい言葉

    需要模型モデルは更広く、すべてのコンテキストにおける現在の最先端の機械翻訳システムの性能を一致させるために、使用されます。

公開された63元の記事 ウォン称賛13 ビュー40000 +

おすすめ

転載: blog.csdn.net/changreal/article/details/101774872