chatglm 130B: 2 つの主要な安定化トレーニング方法

ここに画像の説明を挿入
解決策: Qk を転置する場合、最初に単精度を使用して計算し、次にソフトマックスのときに FP16 に変換します。
ここに画像の説明を挿入

ここに画像の説明を挿入
ここに画像の説明を挿入

ここに画像の説明を挿入
2 つ目: 埋め込み層の勾配は、
ここに画像の説明を挿入
ここに画像の説明を挿入
埋め込み層の勾配と他の層の勾配表現範囲との間に非常に大きな差があり、損失関数のスケーリングに一定の影響を及ぼします。問題は、手動の方法を直接使用します。調整方法は、損失に影響を与えないような間隔に勾配の範囲を調整することです。
ここに画像の説明を挿入
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/stay_foolish12/article/details/131697235