2023年Smart Expo Product Gold AwardをAIStationが受賞、大型モデルコンピューティングパワープラットフォームの効率性が注目を集めた

2023年6月25日2023年世界人工知能製品応用博覧会が蘇州で開幕しInspur Information のインテリジェント ビジネス プロダクション イノベーション プラットフォームAIStation は、最先端のリソース スケジューリング機能とプラットフォーム管理機能を利用して、大型モデルのコンピューティング パワー プラットフォームの効率を効果的に向上させ、Smart Expo の中核となる賞である「Product Gold Award」を受賞ましこの賞は、大規模モデルのコンピューティング能力とビジネスサポートにおけるAIStationのリーダーシップを反映しているだけでなく、大規模モデルのコンピューティング能力プラットフォームの効率に対する業界の高い関心も反映しています

現在、大規模モデルに代表される生成 AI テクノロジーがその開発を加速し、さまざまな業界のインテリジェントな変革経路に革命をもたらしています。生成 AIイノベーションには、数百または数千のアクセラレータ カードを備えたAIサーバー クラスター上の大規模なデータ セットに基づく、数千億のパラメーターを備えた大規模なAIモデルの分散トレーニングが必要です。大規模モデルのコンピューティング プラットフォームのパフォーマンスを最大化し、パフォーマンスの損失を抑制し、大規模なAIモデルのトレーニングとデプロイを効率的に完了する方法が、AIGC時代の新たな課題となっています。

AIStation は、人工知能の開発と展開にフルプロセスのサポートを提供するように設計されたエンドツーエンドのプラットフォームとして、強力なリソース スケジューリングと管理機能により、顧客が大規模なAIモデルの開発と展開を加速できるよう支援します。リソースとディープ ラーニング ソフトウェア スタックリソースは統合された方法で管理され、大規模モデルAIコンピューティング パワー クラスターの効率を効果的に向上させます。

ワンストップ管理、ミリ秒レベルのスケジューリング、クラスター使用率が70%に達する

大規模なモデルのトレーニングには、コンピューティング、ネットワーク、ストレージ、フレームワークなどを含む体系的な分散トレーニング環境の構築が必要です。従来の分散型管理では、しきい値が高く効率が低いだけでなく、ターゲットを絞って最適化された全体的なスケジューリング システムが不足しているため、モデルが大規模になります。コンピューティング プラットフォームの全体的な相乗効果は低く、トレーニング コンピューティングの電力効率は低いです。

分散トレーニング コンピューティングの大規模かつ系統的な特性を考慮して、AIStation は、異種コンピューティング パワー クラスターの統合プール管理を実現し、自社開発の分散タスク適応システムを通じて、トレーニングの基礎となるコンピューティング、ストレージ、およびネットワーク環境を自動的に構成します。基本的なハイパーパラメータをカスタマイズする機能を提供します。さまざまな効率的なリソース管理とスケジューリング戦略を通じて、AIStation はWanka クラスターのミリ秒レベルのスケジューリングを実現し、全体のリソース使用率を70%以上に高めることができます

同時に、AIStation は主流の大規模モデル トレーニング フレームワークを統合し、コンテナ化テクノロジーに依存して動作環境とフレームワーク適応プロセスを標準化およびモジュール化し、数秒での動作環境の構築をサポートし、AI 開発と AI ビジネスの効率的な運用を保証ます

ボトルネックの最適化、堅牢なフォールトトレランス、プロセス全体にわたる大規模モデルのトレーニングの加速

AIStation は、大規模な分散トレーニング中に発生するコンピューティング ネットワークの構築、データ アクセラレーション、ネットワーク通信の最適化などのボトルネックを目的として、画像配信アクセラレーション、データ キャッシング アクセラレーション、ネットワーク トポロジ スケジューリング、リソースの動的弾性スケーリングなどの機能を通じてコン​​ピューティング リソースを改善します。トレーニングプロセス全体を加速しながら活用します。その中で、AIStation は、データ キャッシュ メカニズムを通じてモデル トレーニング効率を200 % ~ 300%向上させることができ、ノードのデータ キャッシュ ステータスに従ってトレーニング タスクを自動的にスケジュールできるため、トレーニング データの繰り返しダウンロードを回避し、データのロード時間を節約できます。連携後の分散トレーニングの線形加速率は0.9に達し、マルチノード連携のパフォーマンス損失を効果的に抑制できます。

現在、大規模なモデルのトレーニングを効率的に完了するには、堅牢性と安定性が強力な要件です。この点において、AIStation は、完全なライフサイクル管理、フォールト トレランス、クラスターの監視と運用とメンテナンスなどの統合機能を提供することで、トレーニングの異常と障害の包括的な検出と自動処理を実現し、ブレークポイント トレーニング時間を効果的に短縮し、複雑さを軽減し、継続的に実行できます。安定したトレーニングにより、大規模なモデルのトレーニングのコストとサイクルが削減されます。 

大規模モデルのアプリケーション価値を解放するための効率的な呼び出し

大規模なモデルのトレーニングが完了した後のアプリケーションのデプロイメントでは、AIStation がトレーニングと推論を完全に統合し、モデル アプリケーションの実装を加速します。大規模モデルの実用化における突然の呼び出しに対応して、AIStation は、推論サービスのリソース要件の変化に応じてリソース割り当てを迅速に調整し、リアルタイムのビジネス リクエストの数に基づいて第 2 レベルのサービスの拡張と縮小を実現し、数百万もの高同時実行の大規模モデルをサポートAI推論サービスのシナリオでは、サービスの平均応答遅延は1ms未満であり、突然のアクセスピークに対する応答効率は50%向上します

現在、AIStation は2,457億パラメータを持つソース」大規模モデルのトレーニング実践で効果的に検証されており 「ソース」大規模モデルをサポートするトレーニングの計算能力効率は44.8%に達しGPT21.3%よりも高くなります。 同時に、大手商業銀行のAIStationベースの並列コンピューティング クラスターは、その優れた大規模分散トレーニング サポート機能が評価され、2022 年の IDC「Future Digital Infrastructure Leader 」賞を受賞しました将来的に、 AIStationプラットフォームは、さまざまな業界における大規模モデルの開発と展開のための効率的なコンピューティング プラットフォーム管理機能を提供し続け、AIGCテクノロジーの反復的なイノベーションを加速します。

おすすめ

転載: blog.csdn.net/annawanglhong/article/details/131456220