2023年Smart Expo Product Gold AwardをAIStationが受賞、大型モデルコンピューティングパワープラットフォームの効率性が注目を集めた

2023年6月25日、2023年世界人工知能製品応用博覧会が蘇州で開幕した。Inspur Information のインテリジェントビジネスプロダクションイノベーションプラットフォームAIStation は、最先端のリソーススケジューリング機能とプラットフォーム管理機能を利用して、大型モデルのコンピューティングパワープラットフォームの効率を効果的に向上させ、Smart Expo の中核となる賞である「Product Gold Award」を受賞しました。この賞は、大規模モデルのコンピューティング能力とビジネスサポートにおけるAIStationのリーダーシップを反映しているだけでなく、大規模モデルのコンピューティング能力プラットフォームの効率に対する業界の高い関心も反映しています。

現在、大規模モデルに代表される生成 AI テクノロジーがその開発を加速し、さまざまな業界のインテリジェントな変革経路に革命をもたらしています。生成 AIイノベーションには、数百または数千のアクセラレータカードを備えたAIサーバークラスター上の大規模なデータセットに基づく、数千億のパラメーターを備えた大規模なAIモデルの分散トレーニングが必要です。大規模モデルのコンピューティングプラットフォームのパフォーマンスを最大化し、パフォーマンスの損失を抑制し、大規模なAIモデルのトレーニングとデプロイを効率的に完了する方法が、AIGC時代の新たな課題となっています。

AIStation は、人工知能の開発と展開にフルプロセスのサポートを提供するように設計されたエンドツーエンドのプラットフォームとして、強力なリソーススケジューリングと管理機能により、顧客が大規模なAIモデルの開発と展開を加速できるよう支援します。リソースとディープラーニングソフトウェアスタックリソースは統合された方法で管理され、大規模モデルAIコンピューティングパワークラスターの効率を効果的に向上させます。

ワンストップ管理、ミリ秒レベルのスケジューリング、クラスター使用率が70%に達する

大規模なモデルのトレーニングには、コンピューティング、ネットワーク、ストレージ、フレームワークなどを含む体系的な分散トレーニング環境の構築が必要です。従来の分散型管理では、しきい値が高く効率が低いだけでなく、ターゲットを絞って最適化された全体的なスケジューリングシステムが不足しているため、モデルが大規模になります。コンピューティングプラットフォームの全体的な相乗効果は低く、トレーニングコンピューティングの電力効率は低いです。

分散トレーニングコンピューティングの大規模かつ系統的な特性を考慮して、AIStation は、異種コンピューティングパワークラスターの統合プール管理を実現し、自社開発の分散タスク適応システムを通じて、トレーニングの基礎となるコンピューティング、ストレージ、およびネットワーク環境を自動的に構成します。基本的なハイパーパラメータをカスタマイズする機能を提供します。さまざまな効率的なリソース管理とスケジューリング戦略を通じて、AIStation はWanka クラスターのミリ秒レベルのスケジューリングを実現し、全体のリソース使用率を70%以上に高めることができます。

同時に、AIStation は主流の大規模モデルトレーニングフレームワークを統合し、コンテナ化テクノロジーに依存して動作環境とフレームワーク適応プロセスを標準化およびモジュール化し、数秒での動作環境の構築をサポートし、AI 開発と AI ビジネスの効率的な運用を保証します。

ボトルネックの最適化、堅牢なフォールトトレランス、プロセス全体にわたる大規模モデルのトレーニングの加速

AIStation は、大規模な分散トレーニング中に発生するコンピューティングネットワークの構築、データアクセラレーション、ネットワーク通信の最適化などのボトルネックを目的として、画像配信アクセラレーション、データキャッシングアクセラレーション、ネットワークトポロジスケジューリング、リソースの動的弾性スケーリングなどの機能を通じてコンピューティングリソースを改善します。トレーニングプロセス全体を加速しながら活用します。その中で、AIStation は、データキャッシュメカニズムを通じてモデルトレーニング効率を200 % ～ 300%向上させることができ、ノードのデータキャッシュステータスに従ってトレーニングタスクを自動的にスケジュールできるため、トレーニングデータの繰り返しダウンロードを回避し、データのロード時間を節約できます。連携後の分散トレーニングの線形加速率は0.9に達し、マルチノード連携のパフォーマンス損失を効果的に抑制できます。

現在、大規模なモデルのトレーニングを効率的に完了するには、堅牢性と安定性が強力な要件です。この点において、AIStation は、完全なライフサイクル管理、フォールトトレランス、クラスターの監視と運用とメンテナンスなどの統合機能を提供することで、トレーニングの異常と障害の包括的な検出と自動処理を実現し、ブレークポイントトレーニング時間を効果的に短縮し、複雑さを軽減し、継続的に実行できます。安定したトレーニングにより、大規模なモデルのトレーニングのコストとサイクルが削減されます。

大規模モデルのアプリケーション価値を解放するための効率的な呼び出し

大規模なモデルのトレーニングが完了した後のアプリケーションのデプロイメントでは、AIStation がトレーニングと推論を完全に統合し、モデルアプリケーションの実装を加速します。大規模モデルの実用化における突然の呼び出しに対応して、AIStation は、推論サービスのリソース要件の変化に応じてリソース割り当てを迅速に調整し、リアルタイムのビジネスリクエストの数に基づいて第 2 レベルのサービスの拡張と縮小を実現し、数百万もの高同時実行の大規模モデルをサポートAI推論サービスのシナリオでは、サービスの平均応答遅延は1ms未満であり、突然のアクセスピークに対する応答効率は50%向上します。

現在、AIStation は2,457億パラメータを持つ「ソース」大規模モデルのトレーニング実践で効果的に検証されており、「ソース」大規模モデルをサポートするトレーニングの計算能力効率は44.8%に達し、GPTの21.3%よりも高くなります。３．同時に、大手商業銀行のAIStationベースの並列コンピューティングクラスターは、その優れた大規模分散トレーニングサポート機能が評価され、2022 年の IDC「Future Digital Infrastructure Leader 」賞を受賞しました。将来的に、 AIStationプラットフォームは、さまざまな業界における大規模モデルの開発と展開のための効率的なコンピューティングプラットフォーム管理機能を提供し続け、AIGCテクノロジーの反復的なイノベーションを加速します。

2023年Smart Expo Product Gold AwardをAIStationが受賞、大型モデルコンピューティングパワープラットフォームの効率性が注目を集めた

おすすめ