機械翻訳と関連技術、及びSeq2seq注意機構モデル、変圧器

まず、機械翻訳および関連技術

機械翻訳(MT):自動的に別の言語に一つの言語から翻訳されたテキストの一部、この問題を解決するためのニューラルネットワークが頻繁に呼び出される神経機械翻訳(NMT)。主な特長:単語列を出力するのではなく、単一の単語です。出力シーケンスの長さは、ソースシーケンスの長さは異なっていてもよいです。

第二に、注意機構モデルとSeq2seq

注目機構
における「コーダ-デコーダ(seq2seq)」配列情報入力STARTを取得する⼀部⾥、デコーダ種々の時間従属変数の背景(コンテキストベクトル)で同じ手順。エンコーダは、リカレントニューラルネットワークを開き、自動的に最終時間ステップ背景に隠れ変数である場合。ソース入力情報系列は、環状状態部で符号化され、その後、標的配列を生成するために復号器に渡されます。しかし、この構造は問題、長距離勾配の存在は特に問題は長い文章のため、実際のRNNメカニズムを消えるがあり、それは、入力シーケンスは、固定長のベクトルに変換されることを希望すると、すべての有用な情報の保存が難しいですしたがって、翻訳文の増加する長さを有するこの構造の影響を大幅に低減され、望まれています。

同時に、ターゲット単語だけ元の入力に関するいくつかの単語を用いて復号することができる、任意の入力に関連していません。「こんにちは、世界は」翻訳されたときたとえば、「ボンジュールル・モンド」、「こんにちは」「ボンジュール」をマッピングし、「世界は」「モンド」にマッピングされました。seq2seqモデルでは、デコーダは、暗黙的にエンコーダの最終状態から対応する情報を選択することができます。しかしながら、そのような機構は、明示的にモデル化された選択プロセスを集中することができます。
ここに画像を挿入説明

三、Transformer

、RNNとCNNの利点を統合するために、[Vaswaniら、2017]注意機構の革新的な使用は、変圧器モデルを設計しました。このモデルでは、注目捕捉機構は配列依存の並列化を達成し、同時にTransformerモデルにおける、このような優れた性能の利点のトークンの各配列の位置を処理し、また、訓練時間を短縮します。

10.3.1示す図Transformerモデルのアーキテクチャ、およびモデル9.7 seq2seq類似し、またベースのトランスエンコーダ - 以下の3点で主に異なるデコーダ・アーキテクチャ:

トランスブロック:代替ネットワーク再循環トランスブロック用seq2seqモデルは、モジュールは、長い注目層(マルチヘッド注意層)と、2つの位置ごとのフィードフォワードネットワーク(含む FFN)を。デコーダのために、他の長注意エンコーダを受信するための中間層です。
追加ノルム:長焦点と出力層フィードフォワードネットワークは、二つの層に供給され、「追加と規範」処理され、層構造および残留正規化を含む層。
位置符号化:自己焦点層シーケンスによる符号化層の位置は、配列の要素に位置情報を追加するために使用されるように、要素を区別しません。
ここに画像を挿入説明

リリース3元の記事 ウォンの賞賛0 ビュー36

おすすめ

転載: blog.csdn.net/weixin_46331108/article/details/104401595