バイチュアン Qウェン

Qウェン

トークナイザー

  • 単語分割方法としてバイト ペア エンコーディング (BPE) を選択します
  • 語彙のサイズの増加が下流のタスクに悪影響を及ぼさないことを検証するために、中国語の Vacabulary が強化されました。

モデル

ここに画像の説明を挿入します

  • 位置埋め込み: RoPE を選択し、モデルの精度を向上させるために、逆更新中に FP16 または BP16 の代わりに FP32 の精度を選択します。
  • バイアス: ほとんどのレイヤーからバイアスが削除されましたが、注目の QKV レイヤーでは、モデルの外挿機能を向上させるためにバイアスが追加されました。
  • RMSNorm: Pre-Norm を置き換えます
  • アクティベーション関数: アクティベーション関数として SwiGLU が選択され、FFN の次元が隠れサイズの 4 倍から 8/3 倍に削減されました。

コンテキストの長さ

コンテキストの長さは、Transformer のアーキテクチャによって制限されます。コンテキストの長さを増やすと、膨大な計算量とメモリ使用量が発生します。
コンテキストの長さの延長の問題を解決するには、次の 2 つの主要なテクノロジがあります。

  • NTK 対応の補間
  • 動的 NTK 対応補間、各チャンクのスケールは異なります

2 つの注意メカニズム:

  • LogN-Scaling では、注意の安定性を維持するために、q と v にコンテキストの長さとトレーニングの長さの間の長さの関係である係数が乗算されます。
  • ウィンドウ アテンション。コンテキストの長さが長くなりすぎないように、ウィンドウ内の注意を厳密に制限します。

観測された結論: 低レベル層は、高レベル層よりもコンテキストの長さの拡張に対してより敏感です。

ここに画像の説明を挿入します

トレーニングの詳細

トレインステージ

  • コンテキストの長さは 2048 に設定されます
  • flash attention 加速
  • BF16 混合精度トレーニング

SFT ステージでは
、sft は次のトークン予測をトレーニング タスクとして使用し
、システムとユーザー入力の損失を計算します。

RL の
4 つのモデル: 政策モデル、価値モデル、参照モデル、報酬モッド

  • ポリシー モデルの更新を一時停止し、50 ステップの価値モデルの更新のみに焦点を当てます。このアプローチにより、
    価値モデルがさまざまな報酬モデルに効果的に適応できるようになります。

白川

トークナイザー

トークナイザーは 2 つの要素のバランスを取る必要があります。

  1. 効率的な推論には、高い圧縮率が必要です
  2. 適切なサイズの語彙リスト
  • バイト ペア エンコーディング (BPE) を使用しますが、入力テキストに対して正規化を実行したり、Baichuan 1 のようなダミー プレフィックスを追加したりしません。
  • 数値を個々の桁に分割する
  • コードデータ内のスペースの問題を解決するために、スペースをトークンとして追加します
  • 中国語の長いフレーズを考慮して、最大トークン長は 32 に設定されています。

モデル

ここに画像の説明を挿入します

  • RoPE は 7B で使用され、ALiBi は 13B で使用されています。ただし、最近の実験では、位置エンコード方式の選択がモデルのパフォーマンスに大きな影響を与えないことが証明されています。これらは、その後の研究と Baichuan 1 との比較のために別々に使用されます。

  • アクティベーション関数で使用される SwiGLU は、非表示サイズの 4 倍から 8/3 倍に削減されます。128の倍数に四捨五入

  • xformer を ALiBi の位置コーディングと組み合わせて使用​​し、メモリ使用量を削減するアテンション レイヤーの最適化

  • RMSNorm、入力変数の分散のより効率的な計算

  • bf16 トレーニングでは、fp16 よりもダイナミック レンジが優れています。ただし、bf16 の精度が低いため、いくつかの問題も発生します。

    • RoPE と ALibi には int オーバーフロー (256 を超える) があるため、位置エンコードでは完全精度が使用されます。
  • NormHead: トレーニングを安定させ、モデルのパフォーマンスを向上させるために、出力 (ヘッドと呼ばれる) の埋め込みが正規化されます。2 つの利点:

    • 1)トレーニングの安定性を確保しますヘッドの分布が不安定で、トレーニング中にレアなトークンの埋め込みが非常に小さくなり、トレーニングが中断されることが判明しました。
    • 2) NormHead は、ロジットを計算する際の L2 距離の干渉を軽減します意味情報は主に、L2 距離ではなく、埋め込みのコサイン類似度によってエンコードされます。現在の線形分類器はドット積を介してロジットを計算するため、L2 距離とコサイン類似度が混合されたものになります。
  • max-z 損失を追加してロジットを正規化します。

    トレーニング中に、言語モデル (LLM) のロジットが非常に大きくなる可能性があることがわかりました。ただし、softmax 関数は相対値のみに依存するため、絶対ロジット値の影響を受けません。この問題は推論中に発生し、一般的な実装では重複ペナルティがロジットに直接適用されます。非常に大きなロジットを縮小するこのプロセスでは、ソフトマックス後の確率が大幅に変化する可能性があり、モデルは繰り返されるペナルティ ハイパーパラメーターの選択に敏感になります。

    ここに画像の説明を挿入します

  • 低スケーリング: Baichuan 2 のスケーリング ルール トレーニング
    ここに画像の説明を挿入します
    に 1 兆個のマーカーを使用して、1,000 万から 30 億のパラメータまでのさまざまなモデルをトレーニングしました。パワー トレーニングの損失をべき乗則項に当てはめることにより、2.6 兆個のマーカーを使用してトレーニングした場合の Baichuan 2-7B および Baichuan 2-13B のトレーニング損失を予測します。このフィッティング プロセスは、最終モデル (2 つの星でマーク) のトレーニング損失を正確に予測します。
    ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/RandyHan/article/details/134105482