スーパーコンピューティング・インターネット統合ストレージ基盤技術の研究

皆さん、こんにちは。私は山東省計算センター (国家スーパーコンピューティング済南センター) の王春暁です。私は 2022 年からスーパーコンピューティング インターネット プロジェクトに参加しています。主にコンピューティング ネットワーク用の統合ストレージ プラットフォームの研究開発を担当しています。ストレージ ベースについてもいくつかの作業を行いました。1 年以上の努力を経て、最終的に Alluxio プラットフォームを選択しました。Alluxio のサポートと支援に非常に感謝しています。

次回は、スーパーコンピューティング インターネットというテーマに焦点を当て、次の 3 つの側面からお話しします。

(1) スーパーコンピューティングインターネットの構築に存在する問題点と課題。

(2) スーパーコンピューティングインターネット統合ストレージプラットフォームの主要技術に関する研究。

(3) スーパーコンピューティングインターネットの応用と今後の展開

シェア全体を見る

1. スーパーコンピューティングインターネット構築における課題と課題

まず、国家スーパーコンピューティング済南センターについて簡単に紹介します。これは 2011 年に設立され、我が国の国内サーバー「Sunway Blu-ray」の発祥の地です。もちろん、Sunway Blu-ray の規模はペタフロップスから増加しています。エクサスケールへ。 2019年より国内プラットフォームをベースとしたユニバーサルプラットフォームの開発・構築に着手しました。つまり、CPU、GPU、およびストレージ帯域幅がかなりの規模に達したサンワード スーパーコンピューティング プラットフォームは、山東省の多くの産業で重要なサポート役割を果たしています。

 

2009 年以来、我が国は多数のスーパーコンピューティング センターを次々と設立し、2023 年 8 月までに 14 か所以上の国家レベルのスーパーコンピューティング センター、30 以上のインテリジェント コンピューティング センター、および 500 以上の大規模なクラウド データ センターを設立する予定です。このような規模により、世界のコンピューティング電源供給の最前線にも立っています。

現在、大型モデルやその他多くの需要の急増に伴い、コンピューティング能力のいくつかの欠陥も明らかになってきています。これはアプリケーション開発の複雑さと切り離すことができません。かつては、データとモデルを取得して特定のリソース上で実行するだけで、今日のアプリケーションを解決できなくなりました。現在は、マルチ コンピューティング能力の段階にあります。一部の比較的大規模なアプリケーション シナリオでは、コンピューティング能力とストレージの規模と種類が求められます。例えば、クラウドコンピューティング、ハイパフォーマンスコンピューティング、AIコンピューティングなどのコンバージドコンピューティングや、我が国が提案する洋の東西のコンピューティングシナリオも、単純に考えただけでは問題を解決することは実際には困難です。特定の領域のコンピューティング能力またはストレージを増加します。もちろん、我が国のコンピューティング能力とリソースの配分には地域差があります。これは、スーパーコンピューティング インターネットを構築するという我が国の提案の本来の目的でもあります。

2023 年 4 月、科学技術省は、統合されたスーパーコンピューティング電力ネットワークとサービス プラットフォームを構築するための国家スーパーコンピューティング インターネットの構築作業を開始しました。国家スーパーコンピューティング済南センターもスーパーコンピューティング インターネット部門の 1 つであり、現在行っていることは、最適なリソース レイアウトを実現するために、広域コンピューティング パワー ストレージとネットワークの統合リソース管理、制御、調整を行っていることです。

済南市の国立スーパーコンピューティング センターは、2016 年からスーパーコンピューティング インターネットの計画と構築を行っており、あらゆるレベルの作業を行ってきました。もちろん、コンピューティングパワーネットワークの構築と応用においては、多くの問題に遭遇することもあります。

1. 1 つ目は、さまざまなクラウド プラットフォーム、AI プラットフォーム、ストレージ プラットフォームの際限のない出現を含む、コンピューティング パワー プラットフォームの多様化の問題です。

2. 2つ目は、国内のグループチップ規格を含む異種リソースの問題であり、これらは非常に異なり、ストレージシステムにもさまざまなインターフェースがあり、非常に分散しており、構造が複雑で、プロトコルが多いため、実現が困難です。相互接続と相互運用性、統合されたプラットフォームを構築する必要があります。

3. 3 番目は、計算能力の不均等な分布であり、これは我が国の共通の問題です。山東省を例に挙げると、コンピューティングは済南にあり、ストレージは淄博にあります。中間ネットワークにボトルネックがある場合、リモート マウント、通話、さらには送信を実現することは基本的に困難です。

海洋気象リモートセンシングの分野など、操作手順が比較的複雑なアプリケーション シナリオもいくつかあります。データは 1 つの場所に保存され、データの前処理、シミュレーション、モデルのトレーニングなどのために別の場所に転送する必要があります。他の操作も可能ですが、これらの操作は異なるプラットフォーム、または異なるリージョンで実行する必要がある場合があり、統合されたサービス プラットフォームがなければ作業が難しく、すべてのプラットフォームの使用に習熟することは困難です。問題と課題 これは、スーパーコンピューティング インターネットのコアを構築するときに解決する必要があるものでもあります。

これはスーパーコンピューティング インターネットのフレームワークであり、国、企業/地域レベル、およびエッジ レベルのデータ センターが相互接続と階層分類を実現できるようになります。相互運用性とは、コンピューティング能力、ストレージ、ネットワークへの比較的簡単かつ統合されたアクセスと操作を可能にすることです。それは水や電気のように流れ、さまざまなユーザーが使用できるように上位レベルに提供できます。たとえば、アルゴリズムは高性能と AI の両方を使用する必要があります。これは私たちの構築目標でもあります。

これは、当時のスーパーコンピューティング インターネットの発展のための産業チェーンでした。以前は、ユーザーはスーパーコンピューティングやデータ センターを通じてコン​​ピューティング能力、ストレージ、ソフトウェアを使用していましたが、サードパーティのアプリケーション ユニットが存在していました。ここで、中間に層を追加し、上位、中間、下流の 3 層の定義を追加しました。最初の層のアプリケーション ユニットとスーパーコンピュータは並列リソースのプロバイダーとして機能し、スーパーコンピューティング ネットワーク オペレーティング システムは中間層として機能して、対応するコンピューティング能力とストレージ ネットワーク。オペレーティング モデルは、中間プラットフォームとして使用できる JD.com や Taobao などのプラットフォームを参照できます。京東やタオバオと同じように商品を販売していますが、私たちが運営しているのはリソースであり、ケーキを切ることから一緒にケーキを作るというモデルに変わります。

2. スーパーコンピューティングインターネットユニファイドストレージプラットフォームの基盤技術に関する研究

これは、山東省で最初に試験運用が行われ、済南市と青島市の 2 つのコアノードを含む山東省の 16 都市をカバーし、現在は済南市と青島市が高速相互接続で運用されています。専用回線を使用します。 sdone またはインターネットを使用して接続できる 30 のエッジ ノードもあります。同時に、28 のコンピューティング クラスターと 7 種類の 45 のストレージ システムにも接続されており、ストレージ システムの統合プラットフォームは、スーパーコンピューティング ネットワーク オペレーティング システムの最初のバージョンの規模です。現在、上位層はクラウド コンピューティング、HPC、AI の 3 種類のサービスをサポートしています。主に次の 3 つの側面でリソースを提供します。

1. コンピューティングリソース。

2. ストレージリソース。

3. ネットワークリソース。

私は主にユニファイド ストレージ プラットフォームを担当しているため、ユニファイド ストレージ プラットフォームの導入に焦点を当てます。実際には、これがユニファイド ストレージ プラットフォームの目標であることがわかります。ストレージ システムを扱う層は、ストレージ ベースとして Alluxio を使用します。これに基づいて、パスの最適化、データ移行戦略、暗号化された送信、一貫性チェックなどの最適化作業も実行しました。それらの一部はまだ検証プロセス中であり、最初のバージョンには追加されていません。全体的な計画。

この図は、ユニファイド ストレージ プラットフォームのコア テクノロジがサービス バスの設計であることを示しています。これは、Alluxio に基づいて上位レイヤにユニファイド ストレージ アダプタとデータ フロー コントローラを開発し、次の 3 つの循環戦略を組み込んだためです。リアルタイム循環、スケジュール循環、自動循環。また、このコード計算ポータル (上記のメイン ポータル) にストレージ、データ、およびデータ転送サービスを提供し、インターフェイスとマウント機能を提供できます。ユニファイド ストレージ アダプターと同様に、現在は次のことができます。

1. ストレージの自動マウント。

2. インターフェース、クライアント、コマンドラインなど、データにアクセスする複数の方法がすべてサポートされています。

もちろん、ユーザーデータの分離や最適な保存方法についても研究しており、すでに組み込まれています。データ フロー コントローラーは多くの作業を実行し、次の 3 つのフロー戦略があります。

1. リアルタイム転送は主にユーザー向けです。ユーザーは当社のプラットフォーム上で済南のストレージと青島のストレージを申請するため、リアルタイムでデータを移行したい場合は、元のアドレスを指定します。と移行のターゲットのアドレス、転送速度を選択し、移行戦略を自動的に照合します。また、さまざまな状態のタスクの実行時間を計算し、最適な戦略を選択するためのインテリジェント モデルに関する研究も行いました。

2. 計画的転送: 計画的転送は現在、海洋およびキャンパスのシナリオを対象としています。たとえば、一部のビデオ データやデータ規模が特に大きいため、学校や海洋のオンサイト データはエッジにあります。調査を行って保存する必要がある場合、実際にはエッジにそのようなストレージ デバイスが存在せず、そのような大量のストレージ デバイスがなければ、毎週スケジュールされたデータ移行を実行する必要があるかもしれません。指定された移行元アドレスと移行先アドレスを、定義された時間内に設定します。また、インテリジェント モデルを使用して、タスクの時間と期限に基づいて最適な戦略を選択します。夜間やネットワーク トラフィックが比較的少ないときに実行することを選択できます。

3. 自動転送も機能であり、ルール エンジンに基づいて移行するデータと場所をインテリジェントに選択します。このようなシナリオは多数ある可能性があり、そのようなシナリオをいくつかカスタマイズしました。自動フロー シナリオについては後ほど説明します。データが別々に保存され計算されているかどうかに基づいて判断されます。たとえば、データが淄博に保存されており、それを済南で計算したい場合、ネットワークの状況によりユーザーの同意が得られない場合、自動的にデータを済南に移行できます。彼。もちろん、メタデータ データベースのアクセス モードとホットスポット データのアクセス頻度を組み合わせて、データがプリフェッチされるかどうかを決定できます。

これは、Alibaba Cloud を含む、図にリストされているストレージ システムに現在接続されている導入計画です。約 130 の外部インターフェイスがあり、サービス ポータル コマンド ライン、クライアント、API などを通じて外部サービスを提供できます。現在の展開では、依然として Alluxio の従来の展開に従っています。後の段階では、分散展開を実現したいと考えています。現在、ネットワーク制限のため、すべての輸出は済南に集中していますが、すでに 16 都市がチャイナユニコムを設立していますが、輸出はまだ自由化されていません。たとえば、青島と淄博間の接続は十分にテストされていません。このような状況では、すべてのストレージを展開し、使用するときに Alluxio Master Jinan の汎用プラットフォームから呼び出す必要があります。他のネットワークが自由化された場合、コンピューティングが青島にある場合は、ストレージも同様になることを願っています。青島では、済南のマスターに割り当てを行わせるように通知する必要がなく、ローカル マウントを実現できるため、現在、分散展開のテストと検証も行っています。

もちろん、これは現在のスマートキャンパスの実際のシナリオでもあります。

当社のストレージ デバイスとコンピューティング リソースはすべて、マルチクラウド管理プラットフォームと呼ばれる統合ストレージ プラットフォームとクラウド プラットフォーム上で管理されています。この場合、コンピューティング ネットワーク オペレーティング システムには全体的なスケジュールがあり、この環境ではすべてのデータが現在右端のデータ センターに存在し、ユーザーは済南にいるか、トレーニング タスクを送信していると想定します。メイン プラットフォーム。このコンテナは需要に基づいて自動的に生成される必要があるため、提出後、コンピューティング リソース、事前トレーニング環境、およびトレーニング環境の場所を決定し、リソースを生成するための一般的なスケジュールが作成されます。データ ビューに基づいて生成されます (Alluxio ではデータ ビューのレイヤーが上に作成されます)。データ ビューとデータ フロー コントローラーに従って、データはトレーニングのために元のアドレスからターゲット アドレスに移行されます。このシナリオでは、実際には 4 つのフローが必要です。

√ 元のデータセットからトレーニング前前処理環境でのトレーニングまでの流れ。

√ 処理後、トレーニングのためにトレーニング環境に行く必要があります。

√ 最後に、モデルをユーザーにフィードバックする必要があります。

√ ユーザーが設定した場合は、推論操作を実行する前に最終シーン (キャンパスなど) にフィードバックする必要があります。

したがって、いくつかの特定の業界シナリオにおける流通プロセスを指定しました。

これは、ユニファイド ストレージ プラットフォーム V1.0 の現在のインターフェイスです。サービス ポータルと管理ポータルを含むメイン ポータルでリリースされており、サービス ポータルには合計 6 つのモジュールと 20 を超えるサブモジュールがあります。

ユニファイド ストレージ プラットフォームについては、Alluxio マスター ノードの分散展開やその上位層での統合スケジューリング管理など、フォローアップ作業を継続する必要があります。次に、データのプリフェッチです。これは、プリフェッチの設計、関連付けルールを含むデータ キャッシュ メカニズムの最適化です。さらに重要なのは、階層化ストレージを実現することであり、これは後で行う必要があります。

3. スーパーコンピューティングインターネットの応用と今後の展開

以下では、さまざまな業界におけるスーパーコンピューティング インターネットの現在の応用例を紹介します。

私たちは 2022 年下半期にスーパーコンピューティング インターネットの開発に注力する予定ですが、実際には 2016 年からレイアウトを策定しており、すでに海洋、材料、気象学、環境保護などの多くの業界でいくつかのアプリケーションが導入されています。エコロジー、産業シミュレーション、教育などの側面。

これは海洋カップリングモデルで、私たちが労山研究所と共同で構築した相互接続ネットワークです。ご覧のとおり、海洋での計算は比較的複雑です。海洋モデル計算と大気モデル計算が必要です。現在の大気モデルは青島スーパーコンピューターで実行され、海洋モデルは済南スーパーコンピューターで実行され、その後ファイル結合が実行されます。これは、2023 年に初めてリモート協調コンピューティングを実装し、良好な結果を達成しました。

リモート センシングの分野でも、比較的完全なデータ フロー シナリオがあります。これは国立地球観測科学データ センターからのデータです。最初に専用回線を通じて済南スーパーコンピューターに送信され、次にブロック ファイルに保存されます。オブジェクトなどのストレージでは、いくつかの並べ替えや保管操作を通じて、データ製品が作成され、処理後に共有されます。これは、クロスドメインのストレージと計算を分離した、データ収集と処理のための当社初のシステムでもあります。また、国立地球観測保管庫および計算センターの設立も申請しました。

デジタル・ガバメントの分野では、電子政府自体が私たちの部隊にあるので、現在、山東省の30の省、300の政府システムの効率的な運用を支援しています。もちろん、これはクラウド上での運用が中心です。リソース 弾力的な拡張。

医療や教育などの分野ではクラウドやエッジの仕事が中心です。これは、Suanwang が提供するコンピューティングおよびストレージ ネットワークであり、スマート キャンパス シナリオでは、斉魯理工大学のプロジェクトを実行し、さらにキャンパス アプリケーション シナリオでも実行しました。

最後に、当社のアプリケーションは全国 2,000 以上の企業/大学/機関をカバーしており、国内外で広く評価されています。私は、現在のコンピューティング能力リソースのストックを活性化するのに役立つ、コンピューティング能力ネットワークを構築することが実際に必要であると考えています。スーパーコンピューティング インターネットがある場合、コンピューティング リソースの利用率を向上させ、コンピューティング パワーを収益化できるようにし、コンピューティング パワー センター、スーパーコンピューティング センター、その他のデータ センターが持続可能かつ健全に動作できるようにする必要があります。また、一部のスーパーコンピューティング エコシステムでは、より良い結果が得られるはずです。環境保護、海洋、リモートセンシングなどの分野での応用も考えられており、将来的にはさらに幅広い応用シナリオが生まれると考えています。

「Qing Yu Nian 2」の海賊版リソースが npm にアップロードされたため、npmmirror は unpkg サービスを停止せざるを 得なくなりました。 周宏儀: すべての製品をオープンソースにすることを提案します 。ここで time.sleep(6) はどのような役割を果たしますか? ライナスは「ドッグフードを食べる」ことに最も積極的! 新しい iPad Pro は 12GB のメモリ チップを使用していますが、8GB のメモリを搭載していると主張しています。People 's Daily Online は、オフィス ソフトウェアのマトリョーシカ スタイルの充電についてレビューしています。「セット」を積極的に解決することによってのみ、 Flutter 3.22 と Dart 3.4 のリリース が可能になります。 Vue3 の新しい開発パラダイム、「ref/reactive」、「ref.value」不要 MySQL 8.4 LTS 中国語マニュアルリリース: データベース管理の新しい領域の習得に役立ちます Tongyi Qianwen GPT-4 レベルのメイン モデルの価格が値下げされました97%、1元と200万トークン
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/5904778/blog/11046528