ヤン・グイハイ氏との会話 | データ流通のための高速鉄道ネットワークを構築するために、DPU でコンピューティング能力を急上昇させることができるか?

最近、中科有酒の創設者兼最高経営責任者(CEO)の厳貴海氏が華泰証券のポッドキャスト「Taidu VOICE」に招待され、華泰イノベーション投資ディレクターのLiu Cheng氏と、人工知能の3要素「計算力」 頭脳を燃やすテクノロジー対談。

プログラムでは、ヤン氏がデータ処理装置 (DPU) の技術原理と応用シナリオをシンプルかつ分かりやすく解説し、計算能力向上の難しさと産業上の意義について、DPU がどのように実現されるのかについて詳しく説明しました。 、コンピューティングパワーベースの重要なコンポーネントとして、さまざまなコンピューティングノードを接続し、コンピューティングリソースプールを構築することで効率を向上させます。同時に同氏は、科学者の起業家精神を共有し、技術開発を促進する上での技術革新と商業応用の緊密な統合の重要性も強調した。

以下は会話の記録です。


01

CPUとGPUだけでは不十分で、DPUは点と点をネットワークで結ぶ「高速鉄道システム」を形成します。

Huatai Innovation の Liu Cheng:ヤンさん、簡単かつ詳細に説明していただけますか。コンピューティング能力が ChatGPT の非常に重要な基盤である場合、その中で DPU はどのような役割を果たしますか?

Yan Guihai 氏、Zhongke Yushu 氏:コンピューティング能力は主にコンピューティング能力から来ており、コンピューティング能力は主にデータを生成し、データを処理する必要があるチップ、ネットワーク、およびさまざまなアプリケーションから来ています。したがって、コンピューティング能力の基礎となるのはさまざまなデータセンターであり、サーバークラスターに展開され、データを計算、保存、送信できるすべてのインフラストラクチャを接続して有機的な全体を形成するためのさまざまなネットワーク機器が装備されています。これがコンピューティングパワーベースと呼ばれるものです。

コンピューティング能力ベースには、最も一般的な中央処理装置 (CPU)、グラフィックス処理装置 (GPU) などのさまざまな種類の処理装置 (PU) のほか、オペレーティング システムや日常使用するさまざまなアプリケーションがあります。ただし、現在の大規模モデルや複雑な人工知能アルゴリズムの場合、多数の計算パワー ノードを巨大な計算パワー プールに接続する必要があり、CPU と GPU だけに依存するだけでは十分ではありません。それで、誰がそれらを接続するのでしょうか?データ処理ユニット (DPU) はその中で非常に重要な役割を果たし、すべてのコンピューティング ノードを接続してコンピューティング リソース プールを形成する責任があります。

プロセッシング ユニット (PU) を都市に例えると、DPU は都市の高速鉄道システムに相当します。以前は考えられなかった、北京と南京を同日に移動できるようになりましたが、今では効率的な交通システムが整っています。同様に、コンピューティング能力インフラストラクチャに適用する場合、ノード間の効率をさらに向上させ、コンピューティング能力全体をスライスとネットワークに接続する必要もあります。DPU は今日の高速鉄道システムと同じ役割を果たします。

b0e5104dcbbfe2e9af37fbfe65510d22.jpeg


02

エネルギー効率比はコンピューティング能力の重要な評価要素です

Huatai Innovation の Liu Cheng 氏:クラウド コンピューティング、東西コンピューティング、コンピューティング パワー ネットワークなど、現在の最先端の情報技術を考慮して、さまざまな業界におけるコンピューティング パワーの重要性を皆さんに説明できますか?

Yan Guihai、Zhongke Shushu:最も直接的な比喩は、コンピューティング パワーを電気として理解することです。今、携帯電話やコンピューターがなければ、仕事ができないと感じたとします。その理由は、あなたの仕事が大量のデータに基づいているからです。今日のコンピューティング能力は、データの処理だけを目的としたものではありません。多くの場合、データに明示的な指示が与えられていなくても、その背後にはデータを分類し、データの価値を採掘するための巨大なシステムが存在します。私たちの各携帯電話のアプリは、あなたが今いるシーンに基づいて、ターゲットを絞ったメッセージを積極的にプッシュします。バックグラウンドでデータを処理するこれらのビジネスによって消費されるコンピューティング能力は、実際に指定したタスクによって消費されるコンピューティング能力よりも大きくなる可能性があります。その背後にある処理は、コンピューティング能力が発揮されるプロセスです。

計算能力の評価基準は実際にはたくさんありますが、重要なものの 1 つはエネルギー効率比です。ビジネス運営をサポートするためにデータセンターが必要なシナリオでは、より経済的でエネルギー効率の高いコンピューティングパワーを使用する方が、エネルギー消費量の多いコンピューティングパワーを使用するよりも明らかに多くの利点があります。

計算能力の分類の観点から、気象予測、地震シミュレーション、風洞衝突シミュレーションなどのシナリオをスーパーコンピューティング アプリケーションと呼ぶことができます。これらは大規模な計算に大きく依存し、厳しい効率要件がありますが、高い要件はありません。外部ネットワークの場合は高すぎます。さらに、現在人気のある Chat GPT モデルはインテリジェント コンピューティング アプリケーションと呼ばれており、モデルのトレーニングとモデルの推論には明らかに大規模なデータ センターが必要です。さらに、ビッグデータの分野では、100万人が赤い封筒を振るのをサポートするシステムなど、前の2つの計算能力とは異なる特別な計算能力が必要になります。サイズは大きいですが、同時にサービスにアクセスする多数のユーザーを処理する必要があり、同時実行性の要件が非常に高くなります。


03

市場の需要と実装シナリオが工業化を開始する背景です

Huatai Innovation Liu Cheng:起業の初心に戻り、業​​界についてもお話したいと思います。Zhongke Yushu を設立する前は科学者でしたが、その時に業界に共通するいくつかの問題を発見しましたが、DPU のようなエントリ ポイントを通じてそれらを解決したいと考えていますか? 事業を始めた当初の意図から、DPUの現在の進捗状況について教えていただけますか?

Zhongke Yushu のYan Guihai: DPU に取り組んでいたとき、私たちはまず需要に注目しました。コンピューティング システムを研究する過程で、従来のデータ センターなどのインフラストラクチャでコストが上昇しながら運営されているビジネスが増えていることに気づきました。データセンターの CPU 使用率は、さまざまなクラウド インフラストラクチャを導入した後でも、アイドル状態でも 20% ~ 30% ビジー状態であり、システム全体の少なくとも 20% ~ 30% がサポートされるようになっていることがわかります。これらのインフラストラクチャによって消費されるコンピューティング能力、これがデータセンターのいわゆる「税金」です。

さらに深刻なのは、この状況はリソース消費の問題だけでなく、パフォーマンスの直接的な低下にもつながることです。たとえば、クラウド コンピューティングでは、異なるマシン間の通信遅延が物理マシン間の通信遅延よりもはるかに大きいことがわかりました。この遅延の増加は、広範なネットワーク仮想化によって引き起こされます。DPU の登場は、このパフォーマンスの問題を直接解決するものです。

需要面では特に厳しい需要が見られます。遅延制御は取引市場全体の流動性と運用効率において重要な役割を果たしているため、証券取引システムとリスク管理システムには遅延に対する非常に高い要件があることは誰もが知っています。遅延はミリ秒レベルからマイクロ秒レベルに短縮され、これは 3 桁の差に相当します。上位層ソフトウェアの簡素化だけに頼ることはできず、ハードウェア リンクとネットワーク プロトコル スタックに関する技術サポートを得る必要があります。これらの要件を従来のコンピューティング システムで直接サポートすることは困難です。したがって、ネットワークに近いデータ処理ユニット (DPU) などのコンポーネントを使用することで、この問題を解決できると考えられます。

当社の製品が革新段階から成熟した商品に確実に移行するには、技術の成熟が必要です。2018年頃にDPUの開発を開始した時点で、必要な条件はほぼ整っていました。唯一欠けているのは市場教育です。過去には DPU は存在しませんでした。そして今、私たちはユーザー コミュニティに DPU の重要性を理解し、認識してもらい、この新しく革新的なものの成熟度についてあまり疑念を抱かないようにする必要があります。製品。市場と顧客が DPU に信頼を寄せるためには、いくつかの実例を提供する必要があります。この方法によってのみ、当社の DPU は研究開発段階から市場に参入することができます。

38905c7fae0a0757058ff9faea1db060.jpeg


04

CPUにDPUの仕事をさせて、

企業の研究開発担当者に事務作業を依頼しているのと同じ

Huatai Innovation の Liu Cheng 氏:先ほど、データセンターの「税金」について言及しましたが、それを定量化することは可能ですか?

Yan Guihai、Zhongke Yushu: 2016 年頃、Google の研究チームは Google Cloud 上のサーバー使用率に関する統計を作成し、データセンター税全体の価値が約 25% ~ 30% であることを発見しました。このデータにより、人々はこのビジネスだけでパフォーマンスのオーバーヘッドが 20 ~ 30% に達する可能性があると考えています。

私たち自身も同様の実験を行ったことがあります。ネットワーク データを処理する必要があるため、データをネットワークからキャプチャし、ローカル アプリケーションで使用できるようにローカルに配置する必要があります。このプロセスでは、CPU がネットワーク プロトコルである解凍プログラムを実行する必要があります。プロトコルの実行時に計算能力が消費され、この計算能力の必要性はデータ パケットの速度によって異なります。パケット速度が高い場合、CPU はそれを処理するためにより多くのプロセッサ コアを必要とする場合があります。また、データ パケットの数が少ない場合は、それほど多くの計算能力は必要ない可能性があります。

25G データ リンクが完全に使用されている場合、それを処理するには約 4 ~ 5 個の Xeon プロセッサが必要になります。たとえば、8 コアを備えた高性能デスクトップ コンピュータの場合、全帯域幅のネットワーク アプリケーションにアクセスする場合、コアの約半分がネットワーク処理に使用される可能性があります。これは実際には大きなオーバーヘッドです。

Huatai Innovation の Liu Cheng 氏: CPU にとってクラウドと仮想化は負担であり、解決するにはこの負担を DPU にオフロードする必要があります。

楊貴海、中科玉樹:こう理解できます。また、クラウドと仮想化はデータセンター税を引き起こす「犯人」ではなく、支払わなければならないコストであると私たちは考えています。100 台のマシンと連携したい場合でも、それらが自動的に連携するわけではないのと同じように、組織が効率的に作業を行うには、ある程度のオーバーヘッド、つまり管理コストを負担する必要があることがわかります。この管理コストは必要不可欠なものです。それはあなたがそれらのタスクを引き受けたい人だけです。CPUに処理させるとオーバーヘッドが発生するようです。しかし、これらの機能を CPU から分離し、これらのタスクを実行するのに適したコンポーネントで処理できるようにすると、オーバーヘッドが大幅に削減されます。

企業と同じように、人事部門や管理部門が常に必要ですが、企業の研究開発担当者が毎日人材採用を担当していると、効率は非常に低くなります。しかし、この仕事を専門に行う人事部門を見つければ、より効率的になります。


05

「ソフトとハードの融合」により、

限界に迫る「低遅延」を実現

Huatai Innovation の Liu Cheng 氏:私の知る限り、Zhongke Yushu はハードウェア製品に加えて、HADOS ソフトウェア開発プラットフォームや NDPP 超低遅延コンピューティング開発プラットフォームなどのソフトウェア製品もあります。なぜ半導体企業はソフトウェアにこれほど多くのエネルギーを投資するのでしょうか?

Yan Guihai 氏、Zhongke Yushu 氏:チップ自体には多くの種類があり、種類が異なれば特性も異なりますが、特に DPU のようなシステムレベルのチップはソフトウェアに大きく依存します。Wi-Fi や Bluetooth チップなどの端末デバイスとは異なり、DPU、GPU、CPU、その他のチップはより複雑です。最も重要なことは、他の人がチップを効果的に使用できるようにする方法であるため、ポート テストや信号テストを通じてチップのパフォーマンスを評価するだけでは十分ではありません。いわゆる「ラスト マイル」接続のスムーズなフローを確保するには、DPU の基礎となるソフトウェア システムを慎重に開発する必要があると考えています。

ソフトウェア チームとハードウェア チームの両方に焦点を当てることが、Zhongke Yushu の常に哲学でした。私たちは、メイン画面のパフォーマンス、遅延、面積、消費電力の観点からチップの最適化を追求するだけでなく、既存のライブラリやミドルウェアとシームレスに接続できることを期待しています。このようなシームレスな切り替えを実現できるのは、底部で非常に完全なソフトウェア層の接続が行われているためです。したがって、この目標を達成するには、ソフトウェアの研究開発リソースに多くの投資を行う必要があります。

Huatai Innovation の Liu Cheng 氏: Zhongke Yushu の製品をデータベース、オペレーティング システム、クラウドなどのソフトウェアまたはハードウェアに組み込むことを楽しみにしているメーカーについて詳しく教えてください。

Zhongke YushuのYan Guihai氏:これには実は製品の生態学の問題が関係しています。今おっしゃった大きなカテゴリーはターミナルソフトに集約されます。ターミナル ソフトウェアは、オペレーティング システムなど、アプリケーション エコシステム全体の主要なプレーヤーの一部を表します。DPU を開発するときは、オペレーティング システムのコンピューティング プラットフォームで使用されるすべてのタイプの CPU と GPU を含む、現在のオペレーティング システムに適合させ、互換性を持たせる必要があります。DPU は、オペレーティング システム上のユーザーが確実に使用できるように、1 つずつ互換性を持たせる必要があります。システム感なく使えます。DPU にとって、これは最良の状態です。

さらに、データベースなどの基本的なアプリケーション システムもいくつかあります。従来、データベースのパフォーマンスを向上させたい場合は、強力なハードウェア チューニング機能が必要でした。実際、データベースとオペレーティング システムの開発を振り返ると、それらは比較的独立して開発されてきたことがわかります。これは、データベース ユーザーまたはデータベース開発コミュニティ自体も強力なハードウェア チューニング能力を持っていることを意味します。この点に関して、私たちは、DPU の多くの高性能ネットワーキングやその他の機能が、これらの基本システム ソフトウェアのチューニング インターフェイスに公開されることを望んでいます。たとえば、分散データベースでは、リモート ノードにテーブルを配置し、DPU でサポートされている DMA メカニズムを使用してテーブルを呼び出すことで、パフォーマンスを向上させることができます。

したがって、これは、基盤となるテクノロジー ソフトウェア ベンダーに機能を公開する必要があるもう 1 つのケースです。基本的なソフトウェアには下位レベルのインターフェイスが必要であり、パフォーマンスを調整する余地が与えられます。そこで私たちは、それらすべてを 1 つのシステムにまとめたいと考えています。

Huatai Innovation Liu Cheng:ソフトウェアまたはハードウェア レベルから見ると、Zhongke Yushu はさまざまなシナリオやさまざまな使用目的に合わせてどのようなソフトウェアおよびハードウェア製品を提供していますか?

Zhongke Yushu の Yan Guihai 氏: NDPP の超低遅延コンピューティング開発プラットフォームは、私たちにとって非常に典型的なケースです。私たちの「N」はNano(ナノ秒)であり、製品の最終的な遅延がナノ秒に近づくことを願っています。超低遅延コンピューティング開発プラットフォームとして、主に遅延に非常に敏感な一部のシナリオを対象としています。つまり、ネットワーク側アプリケーションは、超低遅延開発プラットフォームに基づいてコア アプリケーションを構築できます。このプラットフォームでは、お客様向けに回線交換システムを構築するのと同等の、低遅延の物理リンクを多数提供します。通信する際に電報を送信する必要がなくなり、直接電話をかけることができるため、以前よりもはるかに高速になります。

ad2c8ea9a343c10f354193c269417beb.jpeg


06

科学技術イノベーションが経済発展の新たなトレンドを導く

Zhongke Yushu Yan Guihai:ハードテクノロジーへの投資家として、あなたの主な原動力は何ですか? 主な投資ロジックは何ですか?

Huatai Innovation の Liu Cheng 氏:ハードテクノロジーは十分な注目を集めていないトラックですが、非常に重要です。将来の投資の主流はますますハードテクノロジーによって推進されるでしょう。中国のイノベーション力は部分的に深層水域に参入しており、投資テーマの変化は中国経済発展の全体的な背景やニーズと密接に関係している。20年前、中国は供給された材料の製造や加工といった伝統的な経済モデルが主であり、ハードテクノロジー投資というテーマは目立っていなかった。なぜなら、そのモデルでは利益がより早く返され、投資が容易になり、生産高が高くなるからです。しかし、経済発展がより高いレベルに進むにつれて、中国は徐々にイノベーション主導型、知識主導型、テクノロジー主導型の経済に変わりつつあり、これは経済発展の必然的な結果です。

単純に冷たいとか熱いとかを追求するのは違うと思っていて、技術的な方向性も同様です。温冷交替や繰り返しの鼓動を経験しなければ、技術開発のコンセンサスを得ることが難しく、真に市場の課題を解決し、ニーズに応えられる技術の開発は困難です。この好循環は何度も起こり、最終的には真に顧客の課題を解決でき、価値のある企業だけが生まれます。これらの企業は、製鉄工程で鉄に含まれる不純物を取り除くのと同じように、熱と冷を交互に繰り返しながら磨き続けて鋼を作ります。高温と低温を複数回繰り返すことで、産業の発展を促進できます。

おすすめ

転載: blog.csdn.net/yusur/article/details/131250139