650 億のパラメータ、トレーニングは 38% 増加しました! LLaMA の基本的な大規模モデル再現のベスト プラクティスはオープンソースであり、GitHub は 30,000 個のスターを獲得しています

オープンソース LLaMA の神話が再び登場! 初のオープンソースの 650 億パラメータの大規模モデル高性能事前トレーニング ソリューションにより、トレーニング速度が 38% 高速化され、オーダーメイドの大規模モデルが低コストで作成されます。

「百機種戦争」が激化し、AIGC関連企業の資金調達や合併・買収は最高値を繰り返し、世界的なテクノロジー企業がこのゲームへの参入を競っている。

ただし、AI 大型モデルの素晴らしい美しさの背後には非常に高いコストがあり、1 回の事前トレーニングにかかる​​コストは数千万元に達する場合もあります。LLaMA などの既存のオープンソース大規模モデルの微調整に基づいて、核となる競争力を構築し、商用利用を多様化するという企業のニーズを満たすことも困難です。

したがって、事前トレーニング済みの基本的な大規模モデルを低コストで作成する方法が、AI の大規模モデルの波における重要なボトルネックとなっています。

Colossal-AI は、世界最大かつ最も活発な大規模モデル開発ツールおよびコミュニティです。現在最も広く使用されている LLaMA を例に挙げると、すぐに使える 650 億パラメータの事前トレーニング ソリューションを提供し、トレーニング速度を 38% 向上させ、大規模モデル企業のコストを大幅に節約できます。

写真

オープンソースのアドレス: https://github.com/hpcaitech/ColossalAI

LLaMA がオープンソースへの熱意を高める

Meta のオープンソースの 7B ~ 65B LLaMA 大型モデルは、ChatGPT のようなモデルを作成する熱意をさらに刺激し、Alpaca、Vicuna、ColossalChat などの微調整プロジェクトを派生させました。

ただし、LLaMA はモデルの重み付けをオープンソース化して商用利用を制限するだけであり、微調整によって改善および注入できる知識と機能は比較的限られています。大規模モデルの波に実際に参加する企業の場合でも、独自のコア大規模モデルを事前トレーニングする必要があります。

この目的を達成するために、オープンソース コミュニティも次のような多くの努力を行ってきました。

  • RedPajama: オープンソースの商用利用可能な LLaMA データセット、トレーニング コードとモデルなし

  • OpenLLaMA: JAX および TPU トレーニングに基づく EasyLM を使用したオープンソースの商用 LLaMA 7B、13B モデル

  • Falcon: オープンソースの商用 LLaMA 7B、40B モデル、トレーニング コードなし

ただし、最も主流の PyTorch + GPU エコシステムには、効率的で信頼性が高く、使いやすい LLaMA のような基本的な大規模モデルの事前トレーニング ソリューションがまだ不足しています。

最高の大規模モデルの事前トレーニング ソリューションは 38% 高速化します

上記のギャップとニーズに応えて、Colossal-AI は 650 億パラメータの LLaMA 低コスト事前トレーニング ソリューションをオープンソース化した最初の企業です。

業界の他の主流オプションと比較して、このソリューションは事前トレーニングの速度を 38% 向上させることができ、使用するのに必要な A100/A800 は 32 台だけであり、商用利用は制限されません。

写真

ただし、ネイティブ PyTorch、FSDP などはメモリ オーバーフローのためタスクを実行できません。Hugging Face Accelerate、DeepSpeed、および Megatron-LM は、LLaMA 事前トレーニングを正式にサポートしていません。

箱から出して

1.Colossal-AIをインストールする

git clone -b example/llama https://github.com/hpcaitech/ColossalAI.gitcd ColossalAI# install and enable CUDA kernel fusionCUDA_EXT=1 pip install .

2. 他の依存関係をインストールする

cd examples/language/llama# install other dependenciespip install -r requirements.txt# use flash attentionpip install xformers

3. データセット

デフォルトのデータセット togethercomputer/RedPajama-Data-1T-Sample は初回実行時に自動的にダウンロードされます。カスタム データセットは -d または --dataset で指定することもできます。

4. コマンドを実行します。

7Bおよび65Bのスピードテストスクリプトが提供されており、実際のハードウェア環境に合わせて使用​​するマルチノードのホスト名を設定するだけでパフォーマンステストを実行できます。​​​​​​

cd benchmark_65B/gemini_auto
bash batch12_seq2048_flash_attn.sh

実際の事前トレーニング タスクでは、速度テストと同じコマンドを使用し、対応するコマンドを開始するだけです (4 ノード * 8 カードを使用して 65B モデルをトレーニングするなど)。

colossalai run --nproc_per_node 8 --hostfile YOUR_HOST_FILE --master_addr YOUR_MASTER_ADDR pretrain.py -c '65b' --plugin "gemini" -l 2048 -g -b 8 -a

たとえば、Colossal-AI gemini_auto 並列戦略を使用すると、複数マシン、複数カードの並列トレーニングを簡単に実装でき、高速トレーニングを維持しながらメモリ消費を削減できます。ハードウェア環境や実際のニーズに応じて、パイプライン並列処理 + テンソル並列処理 + ZeRO1 などの複雑な並列戦略の組み合わせを選択できます。

その中で、Colossal-AI のブースター プラグインを介して、ユーザーは Low Level ZeRO、Gemini、DDP などの並列戦略を選択するなど、並列トレーニングを簡単にカスタマイズできます。

勾配チェックポイントは、バックプロパゲーション中にモデルのアクティブ化を再計算することでメモリ使用量を削減します。Flash アテンション メカニズムを導入することで、計算を高速化し、ビデオ メモリを節約します。

ユーザーは、コマンド ライン パラメータを通じて多数の同様のカスタム パラメータを簡単に制御できるため、高いパフォーマンスを維持しながらカスタム開発の柔軟性が維持されます。

写真

ColossalAI の最新の ShardFormer は、多次元並列トレーニング LLM の使用コストを大幅に削減します。

現在、LLaMA を含むさまざまな主流モデルをサポートし、Huggingface/transformers モデル ライブラリをネイティブにサポートしています。

モデルを変更することなく、多次元並列処理のさまざまな構成の組み合わせ (パイプライン、テンソル、ZeRO、DDP など) をサポートし、さまざまなハードウェア構成で優れたパフォーマンスを発揮します。

AI大型モデルシステムインフラColossal-AI

Colossal-AI は、プログラムのコア システムの最適化と加速機能のサポートを提供しており、カリフォルニア大学バークレー校の特別教授である James Demmel 氏とシンガポール国立大学の大統領青少年教授である You Yang 氏のリーダーシップの下で開発されました。

PyTorch に基づく Colossal-AI は、AI 大規模モデルのトレーニング/微調整/推論の開発およびアプリケーションのコストを削減し、効率的な多次元並列処理と異種メモリを通じて GPU 要件を削減できます。

上記の Colossal-AI ソリューションは、フォーチュン 500 企業に導入されており、キロカロリー クラスターで優れたパフォーマンスを発揮し、数千億のパラメータを持つプライベート大規模モデルの事前トレーニングを完了するのにわずか数週間しかかかりません。最近リリースされたShanghai AI LabやShangtangなどのInternLMもColossal-AIをベースにしており、Kcalの効率的な事前トレーニングを実現します。

Colossal-AIは、オープンソース以来、GitHub Hot Listで何度も世界1位にランクされ、30,000以上のGitHub Starを獲得しており、SC、AAAI、PPoPP、CVPR、ISCなどの主要な国際AIおよびHPCカンファレンスの公式チュートリアルにも選ばれており、数百社がColossal-AIエコシステムの構築に参加しています。

その背後にいるルーチェン・テクノロジーは最近、シリーズA資金調達で数億元を獲得し、設立から18か月以内に3回の資金調達ラウンドを迅速に完了した。

オープンソースのアドレス:

https://github.com/hpcaitech/ColossalAI

参考リンク:

https://www.hpc-ai.tech/blog/large-model-pretraining

おすすめ

転載: blog.csdn.net/weixin_48827824/article/details/131807088