PODsys: 大規模モデル AI コンピューティング パワー プラットフォームに展開されるオープンソースの「アーティファクト」

大規模モデルは一般的な人工知能の基礎ですが、大規模モデルのトレーニングはコンピューティング パワー プラットフォームに大きく依存します。大規模モデル コンピューティング プラットフォームとは、業界の最新のアクセラレータ カード、高速インターネット、高性能分散ストレージ システム、液体冷却システム、効率的で使いやすいシステムなど、大規模モデルのトレーニングと推論展開をサポートするコンピューティング インフラストラクチャを指します。大型モデルの研究開発ツールとフレームワーク。コンピューティング パワー プラットフォームの展開プロセス中に、大規模モデルの研究開発機関は多くの場合、一連の質問に直面する必要があります。大規模モデルのコンピューティング パワー プラットフォームとはどのようなものですか? 大規模モデルのコンピューティング プラットフォームを迅速に構築するにはどうすればよいでしょうか? コンピューティングパワープラットフォームの安定性と信頼性を確保するにはどうすればよいでしょうか? 導入効率を向上させるにはどうすればよいでしょうか? コンピューティング プラットフォームのパフォーマンスを向上させるには... これらの問題をスムーズに解決できるかどうかは、大規模モデルの開発とアプリケーションの実装のスピードに直接関係します。

ユーザーによる大規模モデルの技術革新と応用の加速を支援するために、Inspur Information は大規模モデル インテリジェント コンピューティング ソフトウェア スタック OGAI (Open GenAI Infra) をリリースしました。OGAIは、インフラストラクチャ層のインテリジェントコンピューティングセンターOS製品、システム環境層のPODsys製品、スケジューリングプラットフォーム層のAIStation製品、モデルのYLink製品に対応するL0からL4までの5層アーキテクチャで構成されています。ツール層とマルチモード管理層の MModel 製品。その中で、L1 レイヤー PODsys は、顧客にインテリジェント コンピューティング クラスター システム環境導入ソリューションを提供するオープン ソース プロジェクトであり、インフラストラクチャ環境のインストール、環境導入、ユーザー管理、システム監視、リソース スケジューリングの機能を備えています。ユーザーは 2 つの簡単なコマンドを実行するだけで大​​規模モデル コンピューティング プラットフォームの展開を完了できます。これにより、大規模モデル コンピューティング プラットフォームの展開効率が 11 倍向上し、大規模モデルの研究開発の最初の一歩をうまく踏み出すことができます。(ダウンロードアドレス:https://podsys.ai/)

大規模モデルコンピューティングパワープラットフォームの導入問題は早急に解決する必要がある

大規模なモデル パラメータの数とトレーニング データの複雑さの急速な増加により、AI コンピューティング パワー プラットフォームの構築に対する新たな要件が提起されています。つまり、データ センターにおける大規模なコンピューティング パワー導入の観点から、コンピューティング、ネットワーク、ストレージの需要特性に関する大規模なモデルの分散トレーニング、アプリケーションの実践と組み合わせたプラットフォーム ソフトウェアの統合、データ送信、タスク スケジューリング、並列最適化、リソース使用率などに十分な注意を払い、スケーラブルなクラスター システムを設計および構築します。高性能、高速相互接続、バランスの取れたストレージとコンピューティングにより、大規模な AI モデルのトレーニング要件のニーズを満たします。

強力な大規模モデルのコンピューティング プラットフォームには、高性能の CPU、GPU、ストレージ、ネットワーク、その他のハードウェア デバイスが必要なだけでなく、ドライバーとツールの適応性と安定性を確保するために、さまざまなハードウェアとソフトウェア間の互換性とバージョンの選択も考慮する必要があります。 . . コンピューティング パワー プラットフォームの規模が数十台のサーバーから数百台のサーバーに拡大すると、プラットフォームの導入の難易度は飛躍的に増加します。

まず第一に、コンピューティング パワー プラットフォームの導入には、多くの場合、関連するドライバーやソフトウェア パッケージが数十個必要になります。これらのドライバーやソフトウェアを正しくインストール、導入、最適化するには、専門の運用エンジニアとメンテナンス エンジニア、および多くのデバッグ時間が必要となり、導入効率に重大な影響を及ぼします。次に、コンピューティング プラットフォームの高性能と安定した動作を確保するには、さまざまなハードウェア環境下でのソフトウェアの適応を検証し、BIOS、オペレーティング システム、基盤となるドライバー、ファイル システム、ネットワークなどの複数の指標を最適化し、次のことを確認する必要があります。作業も時間と労力がかかります。さらに、コンピューティングパワープラットフォームのリソースステータスは常に変化するため、合理的なリソースのスケジューリングと管理が実行されないと、プラットフォームのリソース使用率に容易に影響を与える可能性があります。

PODsys により、大規模モデルのコンピューティング プラットフォームの展開が「簡単」になります

PODsys は、大規模モデルのコンピューティング プラットフォーム導入シナリオに重点を置き、インフラストラクチャ環境のインストール、環境導入、ユーザー管理、システム監視、リソース スケジューリングを含む完全なツール チェーンを提供し、効率的で互換性があり、使いやすいオープンソースの作成を目指しています。スマートコンピューティングプラットフォーム クラスタシステムソリューションを計算します。

PODsys は、大規模モデルのコンピューティング プラットフォームの展開に必要な数十のドライバー、ソフトウェア、その他のインストール パッケージ、および対応する依存関係と互換性関係を統合し、展開を簡素化する一連のスクリプト ツールを提供します。これらのツールを使用するには 2 つの簡単な手順のみが必要で、PODsys はユーザーが大規模モデルのコンピューティング プラットフォームを迅速に展開するのに役立ちます。

 

ステップ 1: docker run コマンドを使用して、PODsys システムを迅速に起動します。

PODsys システムは、オペレーティング システム、GPU ドライバー、ネットワーク カード ドライバー、通信高速化ライブラリなどを含む、大規模モデル コンピューティング プラットフォームの展開に必要な数十のドライバー、ソフトウェア、インストール パッケージを統合し、展開を簡素化するための一連のスクリプト ツールを提供し、ユーザーは、クラスタ環境を迅速にインストール、構成、更新できます。PODsys は、導入ソリューション全体のオープン性、互換性、安定性を確保するために、業界で広く使用されている多数の主流のオープンソース システム、ツール、フレームワーク、ソフトウェアを使用しています。

ステップ 2: install_client コマンドを使用して、大規模モデル コンピューティング プラットフォームの並列ソフトウェア環境を迅速に展開します。

PODsys は、単一マシンのデプロイメント方法をクラスターデプロイメント方法に変更します。これにより、デプロイメント効率が 11 倍以上向上します。管理ノード上で簡単なコマンド (install_client.sh) を実行するだけで、高速ファイル システム インターフェイス、自動運用およびメンテナンス ツール、NVDIA CUDA プログラミング フレームワーク、および NCCL ハイパフォーマンスを統合した大規模モデル コンピューティング プラットフォームの環境構成が完了します。 NGC アクセラレーション プラットフォームやその他の機能をサポートする通信ライブラリ。マルチユーザーおよびマルチテナントの管理クラスターを実現できます。

PODsys は、包括的なシステムの監視と管理を提供し、ユーザーがクラスターのステータスとパフォーマンス指標をリアルタイムで監視できるようにします。ユーザーは、ビジュアルインターフェイスを通じて、クラスターリソースの使用状況、ジョブの実行およびパフォーマンスのボトルネックを確認し、クラスター構成を迅速に調整し、ジョブのパフォーマンスを最適化し、コンピューティングプラットフォームの高いパフォーマンスと安定した動作を確保できます。

 

さらに、PODsys には効率的なリソース スケジューリング機能とジョブ管理機能があり、ユーザーのニーズに応じてジョブを自動的にスケジュールおよび管理し、クラスター リソースの使用率とジョブ実行効率を確保します。

大規模モデルの急速な適用に伴い、コンピューティング プラットフォームの堅牢性、使いやすさ、導入効率がユーザーが注目する主な問題となっています。ビジネス ユーザー向けに、PODsys はプロフェッショナルなコンピューティング プラットフォームのパフォーマンス チューニング サービスも提供しています。

つまり、PODsys は完全なツール チェーンを提供し、大規模モデル プラットフォームの展開をシステムのインストールと同じくらい簡単にし、ユーザーが大規模モデル コンピューティング パワー プラットフォームを展開する際の時間と労力を節約できるようにし、大規模モデルのイノベーションが最初の一歩を踏み出すのを支援します。

Microsoft、新しい「Windowsアプリ」を発表 Xiaomi、Xiaomi Velaが完全オープンソース、基盤となるカーネルはNuttX Vite 5 であることを正式発表 Alibaba Cloud 11.12が正式リリース 障害の原因が判明:アクセスキーサービス(アクセスキー)の異常 GitHub レポート: TypeScript が Java に代わって 3 番目に人気になる 言語オペレータの奇跡的な操作 : バックグラウンドでネットワークを切断し、ブロードバンド アカウントを無効にし、ユーザーに光モデムの変更を強制する ByteDance: AI を使用して Linux カーネル パラメータを自動的に調整する Microsoft オープン ソースTerminal Chat Spring Framework 6.1 が正式に GA OpenAI の元 CEO 兼社長の Sam Altman 氏と Greg Brockman 氏が Microsoft に入社
{{名前}}
{{名前}}

Supongo que te gusta

Origin my.oschina.net/u/5547601/blog/10141777
Recomendado
Clasificación