完全にニューラルネットワークのコンボリューションに基づくseq2seq

本明細書中に参照:
ゲーリングJ、アウリM、Grangier D、ら。配列学習[J]の畳み込み配列。arXivのプレプリントのarXivの:1705.03122、2017。
引用:13
 
ドーフィンYN、ファンA、アウリM、ら。ゲーティング畳み込みネットワーク[J]と言語モデル。arXivのプレプリントのarXivの:1612.08083、2016。
タイムズ紙は引用:24
 
モデル今日はFacebookの話である 人工知能 のアカデミーに提示畳み込みに完全に基づいて、 ニューラルネットワークの seq2seqフレームワーク、私は良い時代にプッシュする前に言っていseq2seq、伝統的なモデルが実装されRNNのseq2seqに基づいています問題の計算の複雑さをもたらし、特にLSTM、。Facebookは、すべてのコンボリューションニューラルネットワークを置き換えるための大胆な変更、エンコーダ、デコーダ、注意のメカニズム、さらにはメモリユニットを作った、という考えは単純に失礼ではないでしょうか?のみが、単一CNN一定範囲の文脈を参照するが、CNNの複数容易コンテキストを拡大した有効範囲まで追加することができます。成功した英語に適用されるFacebookのこのモデル-フランス語機械翻訳、英語-ドイツ語機械翻訳では、それはGPUやCPU上にあるかどうか、事前に記録し、それらを設定するだけでなく、より高速な大きさの順序を訓練するだけでなく。
 
Facebookのの詳細な説明CONVのseq2seqモデルを開始する前に、我々はゲーテッドCNNを見てする必要があり、これはまた、モデリング言語の終わりにFacebookから提案されたモデルです。
 
言語モデリングのためのゲーテッドCNNモデルを以下に示し、あなたが見ることができるように、伝統的なモデリング言語を使用して操作を埋め込む単語の先頭を埋め込みベクトル分割時間窓のことが続くと、畳み込み演算を行い、違いはありません、注意本明細書で使用されるように、2つの畳み込みニューラルネットワーク、相互に機能を活性化することによって、これらの2つのニューラルネットワークの乗算の前記一方が、最終的な出力を得ました。ここでは、読者は畳み込みニューラルネットワーク機能は、最終的な出力としてどのように多くの有用な情報を制御するゲートの役割として機能するようになっていることが見出されている必要があります。また、この結果はまた、ゲーテッドCNNはウィキテキスト-103で良い結果を達成している示しています。
 

CONVのseq2seqでは、この記事では、また、私は慎重にここで計算の詳細を説明し、以下、ゲーテッドCNNと残留接続、以下に示すモデル構造図のテキストを使用していました。
 

エンコーダのために、第一の層を埋め込む元の単語がCNNをゲートで囲われた入力として埋め込みベクトル次いで、それぞれの埋め込みベクトルを通過することで、順番に、ボリューム、前に入力された長さとコンボリューション後の一貫した動作を保証するために、ことに留意すべきです製品は、パッド操作を行う必要があります。GLU(ゲーテッド線形単位)に使用したモデル内の2つの場所があり、Iは、図単語に赤にそれぞれ各GLU分散ユニットのそれぞれのステータスを埋め込む埋め込みエンコーダおよびデコーダを示しています、二つの状態は、ドットマトリックス注目重みが注目赤色フォント、式に示すように計算特に注目重量マーク図形を得ることができます。
 

 
符号器状態およびエンコーダが加算され、注目の重みが乗算された埋め込み図に注目し、得られた結果は、本明細書において、我々は、従来のフォーカス機構を比較することができる条件入力C、注目する従来のメカニズムと称される直接注目重量及びエンコーダの状態は、位置決めが増加するときの予測を行う際に特定の要素を組み合わせた情報であってもよい埋め込むので、条件入力は、Cを算出乗算し、ここで導入量を埋め込む、本明細書に説明されています図式を以下に示します:

 
将条件输入c加上解码器的状态,即可得到输出序列的概率,以上就是conv seq2seq的模型结构。作者最终在机器翻译上相比其他RNN的模型速度提高了近10倍!

おすすめ

転載: www.cnblogs.com/mfryf/p/11373185.html