Baichuan Intelligent のオープンソースの大規模モデル、baichuan-7B の分析

より: ゼリーの皮を吐き出さずにゼリーを食べる

NLP グループに入る —> NLP 交換グループに参加する

baichuan-7B は主に LLaMA を参照して改良されており、モデル アーキテクチャは LLaMA と一致しています。オープンソースの大規模モデルでは、間違いなく LLaMA が最も明るい星ですが、LLaMA には次のような問題があります。

  • LLaMA はネイティブでラテン語またはキリル語のみをサポートし、トレーニングに少量の中国語データ セットのみを使用するため、中国語のサポートには特に理想的ではありません。

  • 元の LLaMA モデルの語彙サイズは 32K で、中国語の単語は少なく、中国語の解読効率は低いです。

baichuan-7B の改良点は次のとおりです。

効果向上: モデルの効果とデコード効率を向上させるために使用されます。

  • 単語セグメンテーションの向上: 語彙サイズは 64K (2,000 万の中国語と英語の多言語コーパスを使用して単語セグメンテーション モデルをトレーニングし、中国語の圧縮率が大幅に向上します)、LLaMA 語彙サイズは 32K です。

  • データセットの改善: 約 1.2T の中国語と英語のトークンがトレーニングに使用されました (オープンソースの中国語と英語のデータ、自己取得した中国のインターネット データ、およびいくつかの高品質の知識データに基づくデータ クリーニング)。一方、LLaMA 7B はトレーニングに 1T の英語トークンを使用しました。 。

技術的な改善: トレーニングの安定性とスループットを向上させるために使用されます。

  • オペレーター最適化テクノロジー: Flash-attention、NVIDIA apex の RMSNorm など、より効率的なオペレーターを使用します。

  • 演算子セグメント化テクノロジー: 演算演算子の一部をセグメント化してメモリのピーク値を削減します。

  • Mixed Precision Technology: モデルの精度を損なうことなく、計算プロセスを高速化します。

  • トレーニング用の災害復旧テクノロジー: トレーニング プラットフォームとトレーニング フレームワーク、IaaS + PaaS の共同最適化により、分単位の障害位置特定とタスクの回復を実現します。

  • 通信最適化テクノロジーには、具体的には次のものが含まれます。

    • トポロジーを意識したセット通信アルゴリズムを採用し、ネットワークの混雑を回避し、通信効率を向上させます。

    • カードの数に応じてバケット サイズを適応的に設定し、帯域幅の使用率を向上させます。

    • モデルやクラスタ環境に応じて、計算と通信が重なるように通信プリミティブの起動タイミングを調整します。

さらに、このモデルはオープンソースで商用利用可能であることも利点です。

現在の大規模モデルにはアルゴリズム レベルで改善の余地がほとんどないようで、パフォーマンスを向上させるためにエンジニアリング レベルとデータ レベルでさらなる改善が行われていることがわかります。

最後に、国産の大型モデルがますます良くなることを願っています~~


NLP グループに入る —> NLP 交換グループに参加する

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/131266726