複数のメーカーの大規模モデルのトレーニング、推論、展開戦略を 1 つの記事で理解する

オープンソースの中国コミュニティチームは、共有の名のもとに、オープンソースの中国コミュニティの背後にあるストーリーを伝える初のライブブロードキャストを行いました。」

4月20日、第102回元荘会議が武漢で成功裡に開催された。今号では、武漢人工知能研究所、ファーウェイ、マインドスポア、JDクラウド、Gitee AIの人工知能専門家を招き、「大規模モデル競争と性能最適化」をテーマに講演を行っています。続いては、このイベントの素晴らしい瞬間を見ていきましょう！

集合写真を撮りましょう ✅

ピザとギフトは欠かせません！

続いて基調講演の振り返りです。以下の QR コードをスキャンし、「OSC オープンソースコミュニティ」ビデオアカウントをフォローし、「ライブリプレイ」ページにアクセスして完全なビデオレビューを表示できます。

Liu Hao: 大規模モデルの分析と傾向の見通し

武漢人工知能研究所ベンチャーキャピタル変革部所長のLiu Hao氏は、「大規模モデル分析とトレンド展望」というテーマについて共有した。 Liu Hao氏が勤務する武漢人工知能研究所は、2020年にはすでに大型モデル技術の研究を開始し、2021年7月には、画像、テキスト、音声をカバーする1000億個のパラメータを備えた世界初の3モーダル大型モデルをリリースした。

Liu Hao 氏は、人工知能技術の初期の研究には 3 つの大きな問題があると指摘しました。1 つは一般化能力が非常に低く、同様の問題しか解決できませんでした。2 つ目は、モデルの能力が単一であり、リッチテキストを解決できませんでした。 3 番目に、過去の期間において、データアノテーションの需要が少し大きすぎました。大規模モデルは、特に ChatGPT の出現後、これら 3 つの側面から問題を解決できます。 ChatGPT の成功は、人工知能の多くの下流タスクまたは下流モデルが生産ラインに入ることができ、人工知能の製品化の時代が開かれ、技術者がベースモデルの作成に集中できるようになり、より多くの人が人工知能業界に参加できるようになることを意味します。。

さらに、大型モデルはストレージ、コンピューティング能力、輸送能力、その他のリンクの刺激を刺激し、大型モデルを通じて多くの上流と下流の産業を接続しました。

技術的に言えば、国内外の多くの大型モデルは依然として基本的に以前の MoE アーキテクチャを使用していますが、大型モデルにはエンジニアリングと製品の優れた変革が施されています。モデルパラメータが660億を超えてからは、説明不能と思われる能力が出現するなど、人工知能の説明不能性が強くなりました。 Liu Hao 氏は、ChatGPT を非常に効果的にするために OpenAI が使用した手法はまだブラックボックスであると考えていますが、知識、世界認識、モデリング、その他の問題の統一的な表現と推論のための道を模索してきました。

大きなモデルは研究モデルだけでなく、サービスや開発モデルも変えました。たとえば、多くの企業が大型モデルのグラフィックスカードのサブスクリプションをキャンセルし始め、大型モデルの開発を停止しました。結局のところ、大規模なベースモデルを製造する大規模モデル会社は業界にわずか数社しか残っておらず、業界の専門家はさらに多くなる可能性があります。これは、大型モデルが工業生産の段階に入り、多くのツールが大型モデル上で形成されることを意味します。

現在、Zidong Taichu 2.0 はフルモーダル大型モデルにアップグレードされ、3 次元点群などの情報モダリティが追加されています。同時に、武漢人工知能研究所は、フルスタックの国内人工知能オープンサービスプラットフォームも構築し、ワンストッププラットフォームを展開するためのベースとして使用し、コンピューティングパワー+プラットフォームの新しいモデルを採用しています。一方ではベースを使用してデータを微調整し、他方ではプラットフォームとコンピューティング能力をシームレスに組み合わせることができるという側面があります。現在、複数の AICC が全国で実装されており、フルスタックのローカリゼーション適応を完了し、高性能の包括的なコンピューティング能力を活用し、業界シナリオを深く統合し、大規模モデルの適用を加速して数千の業界に力を与えています。

最後に、Liu Hao 氏は、大型モデルの開発傾向について 4 つの主要な判断を下しました。

トレンド 1: 情報技術アプリケーションとイノベーションエコロジーは、さまざまなインテリジェントなアクティビティを完了するための継続的なデータの供給、自然言語プログラミングモードに入るアプリケーション開発など、大きな変化を遂げています。
トレンド 2: 意思決定を支援するための人間と機械の連携など、意思決定インテリジェンスのパラダイムを再構築する。
トレンド 3: 小型化とドメイン化の方向に発展し、一般的な認知 AI に基づいた専門的な人工知能に移行します。
トレンド 4: 人型ロボットと対話する大型モデルなど、より一般的な人工知能への移行。

QR コードをスキャンすると、講義「大規模モデル分析とトレンド展望」のリプレイを視聴できます ⬇️

Li Shuqiao: Shengteng における大規模モデル最適化テクノロジーのアプリケーションと実装

ファーウェイのソフトウェアエンジニアであるLi Shuqiao氏は、「Ascendにおける大規模モデル最適化技術の応用と実装」と題した基調講演を行い、AscendのオープンソースアクセラレーションライブラリのネイティブサポートやAscendの独自機能など、大規模モデルのコンピューティング能力に関するAscendの特徴を3つの側面から紹介した。クラウドネイティブに基づいた最適化テクノロジーと本番環境の実装を開発しました。

まず、さまざまなオープンソースライブラリをサポートしており、サードパーティモデル、サードパーティ AI フレームワーク、サードパーティアクセラレーションライブラリ、サードパーティ推論サービスの 4 つの主要な側面をカバーしています。たとえば、Pytorch と Torch NPU のサポートに関して、Pytorch は 2 つの部分に分けられる AI フレームワークです。上層は Pytorch 部分、下層は Torch NPU です。上位層では、Ascend は登録を通じてネイティブオペレーターとカスタムオペレーターを PyTorch に登録します。これにより、PyTorch が Ascend で実行できるようになり、オープンソースの貢献を通じて、チェックポイント、FSDP、データローダーなどの多くのモジュールが最適化されます。サポート機能により、NPU のネイティブサポートが可能になります。

さらに、Ascend は onnxRuntime ユニバーサルモデルフレームワークもサポートしています。 Pytorch、TensorFlow、MindSpore などのさまざまなフレームワークを onnx 形式で保存でき、onnxRuntime を実行して統一形式を呼び出すことができます。 Ascend のネイティブサポートはすでに onnxRuntime ライブラリをサポートしているため、複数のフレームワークを接続するのに非常に便利で使いやすくなっています。

モデルの圧縮に関しては、DeepSpeed は大規模なモデルを圧縮して、より適切にデプロイして実行できるようにします。現在、Shengteng のネイティブサポートもサポートしています。

画像処理、機械学習、ビデオ分析などを提供するコンピュータービジョンライブラリ OpenCV 用。 Ascend はバックエンドサポートを実装し、Ascend NPU データ構造 AscendMat と 18 個の高周波インターフェイスを提供し、ほとんどのオペレーターのパフォーマンスを 30% 向上させます。

コードの移行。 Pytorch と TorchNPU に基づいて、OpenCLIP の Shengteng に対するネイティブサポートが実装されています。モデルを Shengteng デバイスに移行するには、3 行のコードを実装できます。

第二に、Shengteng は大規模モデル最適化テクノロジーを自社開発しました。 Ascend が自社開発した AscendSpeed 大型モデルアクセラレーションライブラリ。大規模なモデルのトレーニングは、多くのテクノロジーと課題を伴う非常に複雑なプロセスです。大規模なモデルのトレーニングには大量のビデオメモリリソースが必要ですが、これは難しい問題であり、カードのコンピューティングに大きな課題をもたらします。 1 枚のコンピューティングカードのビデオメモリリソースが不十分な場合に複数のコンピューティングカードを介して計算を実行するために、Megatron や DeepSpeed などのサードパーティの大規模モデルアクセラレーションライブラリが業界で登場し、モデルや入力データなどをセグメント化しています。最後に、結果は集合的なコミュニケーションを通じて要約されます。 Ascend は、顧客が大規模なモデルサービスを Ascend デバイスに迅速に移行できるようにする AscendSpeed アクセラレーションライブラリを提供し、Ascend 独自のアルゴリズムをサポートして、すぐに使える使いやすさを保証します。

Ascend は、比較的完全なツールチェーン AIT (Ascend Inference Tools) も提供します。これは、統合推論ツールチェーンへの入り口として機能し、顧客に統合開発ツールを提供し、ワンストップのデバッグとチューニングをサポートします。

最後に、クラウドネイティブに基づいた本番環境の実装についてです。 K8S 火山スケジューラは、Ascend デバイスのアフィニティスケジューリングをサポートします。さらに、Kubernetes Ascend デバイスプラグインは、検出したデバイスの数を Kubernetes システムに報告できます。デバイスが異常な状態にある場合、デバイスの障害が発生すると、新しいコンテナーが削除されます。自動的に引き上げられ、健全な機器が取り付けられ、トレーニングミッションが再構築されます。現在、Vicuna によってネイティブにサポートされている Space バックエンドはすでに Kubernetes デバイスプラグインを使用しています。

QRコードをスキャンして講義「Shengtengにおける大規模モデル最適化技術の応用と実装」のリプレイをご覧ください ⬇️

袁麗江: 知恵は未来を鼓舞する - 延西大型モデルプラットフォーム

JD CloudのプロダクトディレクターであるYuan Lijiang氏は、「インテリジェンスで未来を鼓舞する - Yanxi Large Model Platform」について基調講演を行った。 Yuan Lijiang 氏は、大規模モデルのエンタープライズレベルの実装には 5 つの主要な課題があると紹介しました。それは、リアルタイム、説明可能性、セキュリティと制御可能性、複雑な意思決定、プロフェッショナリズムです。実装の鍵は、リアルタイムで正しい意思決定を行う方法です。不確実で動的に変化する環境での作業です。

Yuan Lijiang 氏は、大規模なモデルを実装するには主に 2 つの方法があると紹介しました。1 つは、AI が人間主導で、テキストコンテンツの生成などの作業を完了するモデルです。加工、ヴィンセント・トゥーなど実際、企業にとっては、可能な限り人材を解放する必要があります。もう 1 つはエージェントモードで、企業内の複雑なシナリオに適しています。このモードでは、人間が高次元の視点に立ち、人工知能の「メンター」または「コーチ」として機能し、目標を設定し、結果を監督します。大きなモデルは推論能力を発揮し、適切なツールと言い訳を使用し、最終的には対応する結果のフィードバックを与えることができます。

企業における大規模モデルの実装に依存する主要なテクノロジーも変化しました。初期の事前トレーニングは最もコストが高く、その後、SFT モードのコストは減少しましたが、検索に基づく実装効果は良好ではありませんでした。ベクトルデータベースは RAG モードを強化しましたが、効果は知識の質問と回答のシナリオに限定されており、最終的には熟練した技術チームがエージェントモードに注意を払い、複数のシナリオのサポートを実現できます。

JD.com の金融ビジネスでは、大規模モデルの SFT や LoRA に依存するだけでは、大規模モデルの実際的な問題を解決する能力を向上させることは困難です。代わりに、マシンがツールを使用してビジネス上の問題を解決できるようにするエージェントテクノロジに基づいています。具体的には、エージェントを使用してユーザーの目標を理解し、各サブタスクを分解し、各サブタスクに適切なツールを選択します。これらのツールは JD.com の本来のビジネスの一部のインターフェイスであり、最終的に大規模なモデル機能と組み合わせてフィードバックを提供します。。このようにして、一部のユーザーの複雑な質問に対する回答がより正確になります。

現在、JD Yanxi のフルモデルプラットフォームは多層の製品マトリックスを構築しています。最下層は、コンピューティングリソース、ストレージリソース、高速ネットワーク、リソーススケジューリングなどのリソースサポートです。モデルリソース層では、モデルの管理とトレーニング、データセットの処理、モデルの評価と展開などの機能を提供します。モデルリソース層の上には、さまざまなツールの統合に重点を置いたインテリジェントエージェントの構築があります。最上位層はアプリケーションサービス層で、複数の企業シナリオに適応します。

JD Yanxi の大規模モデルプラットフォームには 6 つの主要な機能があります。リソーススケジューリングコラボレーションは、コンピューティングリソースの効率的な管理とスケジューリングを実現し、大規模モデルの開発とアプリケーションのパフォーマンスの最適化とコスト管理を保証し、大規模モデルのトレーニングの管理とサポートを提供します。事前トレーニング、微調整、強化学習、評価などが効率的に実行され、大規模なモデルによるトレーニングと微調整により、企業はモデルをカスタマイズして精度と関連性を向上させることができ、インテリジェントなエージェントの構築が容易になります。インテリジェントエージェントを展開し、企業の既存の IT システムと組み合わせて複雑なタスクを実行します。セキュリティコンプライアンスにより、すべての大型モデルアプリケーションがセキュリティ標準および法的要件に準拠していることが保証され、インテリジェントアプリケーション市場では、一連の事前構築済み大型モデルアプリケーションが提供されます。企業は直接展開することも、プラグインを提供することもでき、システムに素早くアクセスできます。

QR コードをスキャンして、「未来を鼓舞する - 延西大規模モデルプラットフォーム」のスピーチのリプレイをご覧ください ⬇️

Lin Jiazhen: 大規模モデルのサーバーレス推論システム

現在、一部のモデルパーティまたはプラットフォームは、大規模モデルテクノロジを使用するためのコンピューティングパワーを個人ユーザーに無料で提供しています。Gitee.AI も、大規模モデル集約プラットフォームとして、個人ユーザーに無料でコンピューティングパワーを提供しています。 Gitee AI および清華大学ハイパフォーマンスコンピューティング研究所の専門コンサルタントである Lin Jiazhen 氏は、「大規模モデルサーバーレス推論システム」について基調講演を行いました。

Lin Jiazhen 氏は、Gitee.AI は現在 2,000 を超えるモデルを集約していますが、無料のコンピューティングリソースは限られているため、これらの無料のコンピューティングリソースを開発者にオンデマンドでより効率的に割り当てる必要があり、これは現時点では非常に困難であると指摘しました。問題。たとえば、以前は外部開発にコンテナーテクノロジーが使用されていましたが、単一コンテナーのスワップイン、スワップアウト、およびウェイクアップは非常に高速でした。しかし、大規模モデルの時代ではこれが困難になりました。 - モデルのアップとスリープにより、これまではコンテナのスワップインとスワップアウトの管理が困難でしたが、シーンも同様に効率的になります。

サーバーレス AI には、簡単な導入、すぐに使用できること、コンピューティング電力使用コストの削減、主流モデルのカバー、さまざまなコンピューティングハードウェアのサポートなど、4 つの大きな利点があります。現在のモデルエンジン、またはコンピューティングパワーの購入と使用方法に問題があります。つまり、ユーザープログラム、モデル、推論チップがすべてコンテナーに関連付けられており、ハードウェアチップを占有してコンピューティングパワーサービスを使用しています。サーバーレス推論エンジンは、コンピューティング能力リソースを統合して最適化し、複数レベルの非集約を通じてアプリケーション、モデル、コンピューティング能力間の結合を削減し、オンデマンドでコンピューティング能力を割り当て、リソース使用率を向上させます。

サーバーレスシステムアーキテクチャは 3 つの層に分かれており、最下層はコンパイラ層であり、コンテナ内のモデルのロードはリモートサービスへの RPC 呼び出しのモードに変更されますが、インターフェースは変更されません。モデルとチップの解重合を実現するバックエンド推論。 rpc は、上位レベルの推論エンジンに与えられます。推論エンジンは、実際に計算が行われるクラスターであり、データと計算能力を非集約化します。たとえば、10 枚のカードで 3,000 個のモデルのスケジュール要求を満たすタスクシナリオを想定します。このとき、大きなモデルを 1 枚のカードに固定的にロードする方法はありません。必要なモデルを一時的に動的にロードする必要があります。したがって、計算されたチップとモデルの重みは集約されず、モデルはコンピューティングパワーチップとモデルの集約をサポートできる異種メモリシステムである TanserGraph に配置されます。最上位層では、サーバーレス層、アプリケーション、推論、集計が実行されます。

サーバーレスシステムアーキテクチャの中核となる機能は、モデルの重みの問題を解決する異種相互接続メモリです。データセンターのアーキテクチャ全体には、リソースの使用率が低く、ハードウェアのスケーラビリティが制限されているなど、いくつかの制限があります。分散テクノロジでは、アーキテクチャ全体の各コンポーネントを物理的に分離し、特定の相互接続を使用して各コンポーネントの制御インターフェイス (コントロールプレーン) をリンクできます。各種リソースのオンデマンド割り当て・拡張を実現するインターフェース(Data Plane)。さらに、メモリのデアグリゲーションには、クラウド環境のリソース使用率の向上や増大するメモリリソースの需要への対応が容易になるなど、クラウドシナリオにおけるアプリケーション上の利点もあります。

しかし、既存の階層メモリシステムは、デアグリゲーションアーキテクチャの下での高いハードウェアの柔軟性には適しておらず、システムの拡張性も制限されています。さらに、システムの内部構造の制限により、既存のメモリ管理インターフェイスの機能も制限されています。異種相互接続メモリは、ハードウェアアクセス統計、プログラム可能な戦略、ページ移行という 3 つのリンクを通じてこれらの問題を解決できます。 CPU を例に挙げると、PEB に基づくアクセス統計に関して、ハードウェアは実行中のプログラムのメモリアクセスステータスを収集し、命令、TID、宛先アドレスなどを記録し、オンデマンドでモデルの重みをロードすることがサポートされています。

さらに、サーバーレスシステムアーキテクチャには、MLIR に基づくマルチレベルニューラルネットワークコンパイル最適化テクノロジや、ユーザー空間分離テクノロジに基づく軽量システムサービスメカニズムなど、他のさまざまな機能もあります。サーバーレス推論エンジンは、2 つのコア知的財産テクノロジーに基づいて構築されており、現在主流のさまざまな推論システム最適化テクノロジーも統合されています。

現在、Llama 3 は Gitee AI 上で起動されています。以下のリンクをブラウザにコピーし、プラットフォームに入って体験してください (招待コード: llama3):

https://ai.gitee.com/hf-models/shenzhi-wang/Llama3-8B- Chinese-Chat

QRコードをスキャンすると講義「大規模モデルサーバーレス推論システム」のリプレイを視聴できます⬇️

Chen Ziheng: MindSpore 大型モデルの主要テクノロジーと計画

MindSpore リサーチエンジニアの Chen Ziheng 氏は、「MindSpore 大規模モデルの主要テクノロジーと計画」について基調講演を行いました。 Chen Ziheng 氏は、業界において MindSpore は基盤となるチップハードウェアと上位レベルの業界アプリケーションの間に位置すると述べました。大規模モデルテクノロジに関しては、MindSpore は最初に基本レイヤーを構築し、上位レイヤーでは、業界パートナーと協力して業界モデルを構築します。さらに、MindSpore は国内外のさまざまな主流のオープンソース大規模モデルとも互換性があります。すべての大規模モデルに対して、MindSpore は、MindFormers、MindPET、および MindRLHF の 3 つの基本パッケージを使用して、大規模モデルの開発、微調整、展開のプロセス全体を統合し、すぐに使用できるようにします。

大規模モデルのトレーニング用。 MindSpore は、計算グラフベースのコンパイラを使用して並列戦略を実装します。計算グラフを入力すると、MindSpore のグラフコンパイルプロセスが並列戦略に従ってグラフを分割し、データ再配置演算子を自動的にグラフに挿入して、複数のマシンの並列計算ロジックが 1 台のマシンの並列計算ロジックと一貫していることを確認します。このようにして、MindSpore は、トップレベルの自動ポリシー生成、多次元ハイブリッド並列処理、実行時の多次元ストレージと異種混合をサポートする最適化など、複数レベルの最適化を実現します。

昨年以来、MindSpore チームは大規模モデルの並行トレーニングも行っています。通常の状況では、一般的な大規模モデルのトレーニングでは、データ並列処理、オプティマイザー並列処理、モデル並列処理、パイプライン並列処理、再計算を含む 5 つの並列戦略を組み合わせて使用します。 MindSpore チームは、これらの並列モードでの一般的なモデルの時間のかかる状況を分析し、主なコストが 3 つの側面にあることを発見しました。これには、オペレーターレベルのモデル並列処理のコスト、パイプライン並列処理によって生成されるバブル、データのテールタイムが含まれます。平行性。そして、クラスターの規模が増大し続けると、Wanka クラスターに到達すると、これらのオーバーヘッドの問題がより顕著になります。たとえば、グローバルバッチサイズの制限により、パイプラインのバブルの問題がより深刻になります。通信領域が増加すると、通信パフォーマンスが低下し、データ並列度の尾引き率が増加します。

これらの問題について、Chen Ziheng 氏は、データを 2 つに分割し、それぞれのデータを独立して計算および通信できる一方で、複数のデータコピー間での計算と通信を可能にするマルチコピー並列モード隠れモデル通信などのいくつかの解決策も紹介しました。相互に非表示にすることで、オペレーターレベルのモデルの並列処理が最適化されます。 PipeLine 並列最適化の場合、PipeLine Interleave を通じて Bubble を 10% 未満に削減します。

さらに、MoE トレーニング中にホットエキスパートとコールドエキスパートの問題が発生します。エキスパートのホットマイグレーションでは、AlltoAll の通信量が削減され、MoE モデルのトレーニングのパフォーマンスが向上します。高パフォーマンスのトレーニングに加えて、大規模モデルのもう 1 つの問題は、戦略並列処理を実装する方法です。MindSpore は自動並列処理を採用しており、大規模モデルの並列戦略調整時間を数か月から数時間に短縮できます。

導入の観点から見ると、MindSpore はサーバーレスのバックエンドに相当し、解決する必要があるのはパフォーマンスの問題です。 MindSpore は、分散並列推論、KV キャッシュ、動的シーケンス、継続バッチ、および高性能推論融合演算子を使用して、低遅延、高スループット、大規模モデルの長いシーケンスのサポートを備えた統合推論フレームワークを構築します。統合されたトレーニングとプッシュアーキテクチャにより、トレーニングから推論までのシームレスな接続が可能になります。

次に、MindSpore の大規模モデルトレーニングの計画には、Wanka 大規模クラスターのトレーニングパフォーマンスの最適化、高密度の大規模モデルのパフォーマンスの最適化、疎な MoE 大規模モデルのパフォーマンスの最適化などが含まれます。大規模モデル推論の観点から、MindSpore は統合されたモデルに関するより詳細な研究を行う予定です。大規模モデルのトレーニングとプッシュアーキテクチャ、高密度の大規模モデル推論の高速化、疎な大規模モデルの推論高速化など。

QR コードをスキャンして、講義「MindSpore 大規模モデルの主要テクノロジーと計画」のリプレイを視聴します⬇️

このイベントのレビューは以上です。第 103 回元荘フェアへの登録は受付中です。クリックしてご覧ください⬇️

【端末内大型モデル技術】OSC Source Innovation Conference・深センステーション・Issue 103 https://www.oschina.net/event/2332004