変圧器の論文を集中的に読む

目次

概要

結論

 序章

バックグラウンド

トレーニング


概要

配列転写モデルでは、エンコーダとデコーダの間で「アテンションメカニズム」が使用され、2回の機械翻訳実験が行われ、その効果は他のモデルより優れています。

結論

Transformer は、attention メカニズムのみを使用した配列転写の最初のモデルです。機械翻訳モデルでは、Transformer は他のアーキテクチャよりもはるかに高速で、効果も優れています。

 序章

RNN の欠点について説明すると、RNN モデルでは以前のすべての情報が隠れた状態に置かれるため、時間内に並列化することができず、計算パフォーマンスが比較的低くなります。

この段落では、Transformer が以前のリカレント ニューラル層を使用しなくなり、純粋にアテンション メカニズムに基づいているため、並列度が比較的高く、より良い結果を短時間で達成できることがわかります。

バックグラウンド

畳み込みニューラル ネットワークを使用してサイクリック ニューラル ネットワークを置き換えてタイミングの計算を削減する方法を提案し、畳み込みは複数の出力チャネルを実行でき、1 つの出力チャネルでさまざまなパターンを識別できると考えられることを提案します。

トレーニング

トレーニングデータセットのソースと処理

 デバイス部分を使用して、トレーニングでは 8 つの P100DE GPU を使用し、8 つの GPU で 12 時間トレーニングしました。

 正則化。多数のドロップアウト層を使用してモデルを正則化します。

おすすめ

転載: blog.csdn.net/weixin_64443786/article/details/131879330