生成AIの爆発的な計算能力の課題に対応する「オープンアクセラレーション仕様AIサーバー設計ガイド」をリリース

8月10日、2023年オープンコンピューティングコミュニティチャイナサミット(OCPチャイナデー2023)において、「オープンアクセラレーション仕様AIサーバー設計ガイド」(以下「ガイド」)が公開されました。「ガイド」は、生成的 AI アプリケーション シナリオを対象としており、オープン アクセラレーション仕様 AI サーバーの設計理論と設計手法をさらに開発および改善し、コミュニティ メンバーがオープン アクセラレーション仕様に準拠した AI アクセラレータ カードを効率的に開発し、適応期間を大幅に短縮するのに役立ちます。 AI サーバーとの時間のプロビジョニング サイクルにより、アプリケーション シナリオに最適な AI コンピューティング パワー製品ソリューションをユーザーに提供し、生成 AI の爆発によってもたらされるコンピューティング パワー業界における大きなチャンスを掴みます。

 現在、生成 AI テクノロジーは急速に発展しており、AI イノベーションの新たな波をリードしています。大規模な AI モデルは生成 AI の重要な基盤であり、生産効率の向上と伝統的な産業の変革とアップグレードに大きな価値をもたらす可能性があります。大規模なモデルを効率的にトレーニングするには、通常、より高い計算能力の AI チップで構成される AI サーバー クラスターのサポートが必要です。 1,000カロリー以上。生成型 AI の加速に伴い、高い計算能力の AI チップを搭載した AI サーバーに対する業界の需要は増加し続けています。このような背景から、世界中の数百社の企業が新しいAI高速化チップの開発に投資しており、AIコンピューティングチップの多様化傾向が顕著になっています。統一された業界標準が存在しないため、メーカーごとに AI アクセラレーション チップに大きな違いがあり、その結果、チップごとにカスタマイズされたシステム ハードウェア プラットフォームが必要となり、開発コストが高くなり、開発サイクルが長くなります。

OCP は、基本的なハードウェア テクノロジの分野で世界で最も広範で影響力のあるオープンソース組織です。2019年、OCPは、複数のAIアクセラレータカードの形式やインターフェースの不一致の問題を解決するために、超大規模ディープラーニングトレーニングにより適したAIアクセラレータカード形式を定義するOAI(Open Accelerator Infrastructure)グループを設立しました。2019年末、OCPはOAI-UBB(Universal Baseboard)1.0設計仕様を正式にリリースし、その後OAI-UBB1.0仕様に基づくオープンアクセラレーションハードウェアプラットフォームを開始しました。これにより、ハードウェアを変更することなく、さまざまなメーカーのOAM製品をサポートできます。 。近年、Inspur Informationに代表されるシステムメーカーは、オープンアクセラレーション仕様に準拠したAIサーバーを多数開発し、オープンアクセラレーションAIサーバーの産業化を実現しています。

「ガイド」は、オープンアクセラレーテッドコンピューティングの分野における製品開発とエンジニアリング実践の経験に基づいて、オープンアクセラレーテッド仕様AIサーバーの設計理論と設計手法をさらに開発および改善し、4つの主要な設計原則とフルスタック設計手法を提案します。 、ハードウェア設計リファレンスを含む、管理インターフェイス仕様とパフォーマンス テスト標準は、コミュニティ メンバーが AI アクセラレータ カードをより迅速かつより適切に開発し、生成 AI のコンピューティング能力の課題に対処するオープン アクセラレータ AI サーバーに適応できるように設計されています。

「ガイド」では、オープンで高速化され標準化されたAIサーバーの設計は、アプリケーション指向、多様性とオープン、グリーンで効率的な設計、調整された設計という4つの主要な設計原則に従う必要があると指摘している。これに基づいて、多次元協調設計、包括的なシステムテスト、パフォーマンス評価と最適化などの設計手法を採用して、適応展開の効率、システムの安定性、およびシステムの可用性を向上させる必要があります。

多次元の協調設計とは、システム メーカーとチップ メーカーが計画の初期段階で全面的な多次元の協調を実施し、カスタマイズされた開発内容を最小限に抑える必要があることを意味します。大規模モデル コンピューティング システムは、通常、コンピューティング、ストレージ、ネットワーク機器、ソフトウェア、フレームワーク、モデル コンポーネント、キャビネット、冷凍、電源、液冷インフラストラクチャなどを含む高度に統合されたコンピューティング クラスターです。多次元のコラボレーションを通じてのみ、世界的に最適なパフォーマンス、エネルギー効率、または TCO 指標を達成し、システムの適応とクラスターの導入効率を向上させることができます。「ガイド」では、ノードからクラスターまでのソフトウェアとハ​​ードウェアのフルスタックのリファレンス設計を提供します。

包括的なシステム テストとは、異種アクセラレーション コンピューティング ノードは通常、故障率が高く、システムの製造、展開、運用中の故障のリスクを最小限に抑え、システムの安定性を向上させ、トレーニングを継続するためのブレークポイントを減らすために、より包括的で厳密なテストが必要であるという事実を指します。インパクト。「ガイド」では、構造、放熱、圧力、安定性、ソフトウェア互換性などの観点からテストのポイントを総合的に整理しています。

パフォーマンスの評価とチューニングとは、大規模モデルのアクセラレーション コンピューティング システムのソフトウェアとハ​​ードウェアのマルチレベルのパフォーマンス評価と詳細なチューニングを実行する必要性を指します。「ガイド」では、基本性能、相互接続性能、モデル性能テストの重要なポイントと指標を提供し、オープンアクセラレーション仕様の AI サーバーが現在のパフォーマンスを効果的に完了できるようにするための大規模モデルのトレーニングと推論パフォーマンスのチューニングの重要なポイントを示します。主流の大型モデル、革新的なアプリケーションのサポート。

おすすめ

転載: blog.csdn.net/annawanglhong/article/details/132302111