機械翻訳のためのディープトランスモデルを1.Learning
https://arxiv.org/pdf/1906.01787.pdf
主要な深い変圧器を訓練する方法の説明は、問題は、深い勾配の消失は、使用される方法はoncat、結果は、1つの直線寸法層に変更して供給されたすべての先行層の出力があることです
リニアマトリクス層を訓練することができる一方で、同様のアイデア残差が、すべての結果を利用することができますが、フロントました。
また、項目はありません前に、状況勾配が消え生成次回も先行し、長期定期深度の深いケース後の定期的な用語のプラスの効果を説明したが、リニア接続した後、問題がないことを追加します。項目には、訓練することができた後、
この図は、前と後の違いです。
2.RBFニューラルネットワーク