カスタム データ セットでのメッシュ メモリ トランスフォーマーのトレーニングとデバッグ
著者: Quiet to Silent個人ホームページ
モデルのトレーニング
train 関数には主に次のパラメータが含まれています。
口論 | 可能な値 |
---|---|
–exp_name | 実験名 |
-バッチサイズ | バッチサイズ (デフォルト: 10) |
-労働者 | ワーカーの数 (デフォルト: 0) |
–m | メモリ ベクトルの数 (デフォルトは 40) |
-頭 | ヘッド数 (デフォルト: 8) |
-準備し始める | 学習率スケジューリングのウォームアップ値 (デフォルト値は 10000) |