目次
概要
配列転写モデルでは、エンコーダとデコーダの間で「アテンションメカニズム」が使用され、2回の機械翻訳実験が行われ、その効果は他のモデルより優れています。
結論
Transformer は、attention メカニズムのみを使用した配列転写の最初のモデルです。機械翻訳モデルでは、Transformer は他のアーキテクチャよりもはるかに高速で、効果も優れています。
序章
RNN の欠点について説明すると、RNN モデルでは以前のすべての情報が隠れた状態に置かれるため、時間内に並列化することができず、計算パフォーマンスが比較的低くなります。
この段落では、Transformer が以前のリカレント ニューラル層を使用しなくなり、純粋にアテンション メカニズムに基づいているため、並列度が比較的高く、より良い結果を短時間で達成できることがわかります。
バックグラウンド
畳み込みニューラル ネットワークを使用してサイクリック ニューラル ネットワークを置き換えてタイミングの計算を削減する方法を提案し、畳み込みは複数の出力チャネルを実行でき、1 つの出力チャネルでさまざまなパターンを識別できると考えられることを提案します。
トレーニング
トレーニングデータセットのソースと処理
デバイス部分を使用して、トレーニングでは 8 つの P100DE GPU を使用し、8 つの GPU で 12 時間トレーニングしました。
正則化。多数のドロップアウト層を使用してモデルを正則化します。