この投稿では、GPU、特に Nvidia H100 の需要と供給を調査します。この投稿と同日に曲とミュージックビデオもリリースします。
この記事は急速に広まりました。この曲は HN、techmeme、多くの電子メール ニュースレターのトップ ページで特集され、Andrej Karpathy らからのツイート、Inflection の Mustafa (間もなくオンラインで 1 億ドルの GPU を所有する予定) からのコメント、そして Stability Emad からのコメントが得られ、この曲は次の記事で言及されました。ニューヨーク・タイムズ紙をはじめ、さまざまな資産運用会社や AI 創設者が連絡を取りました。まだ読んでいない方はぜひ楽しんでいただければと思います!
はじめに#
2023 年 3 月 <> の時点では、AI は GPU の供給がボトルネックになっている可能性があります。
「AI ブームが過小評価されている理由の 1 つは、GPU/TPU の不足です。この不足により、製品の発売やモデルのトレーニングにさまざまな制約が生じますが、これらの制約は目に見えません。代わりに、私たちが目にするのは Nvidia の価格の高騰だけです。供給が満たされれば、需要があれば、物事は加速します — Adam D'Angelo、Quora CEO、Poe.com、元 Facebook CTO
これらは、GPU の需要と供給、そして AI にとって最も重要な CEO と企業です。大きなバージョン
本当にボトルネックがあるのでしょうか? #
イーロン・マスク氏は、「現時点では、GPU は麻薬よりも入手が困難です。1 」と述べています。
Sam Altman 氏は、OpenAI は GPU に制限があり、短期計画 (微調整、専用キャパシティ、32k コンテキスト ウィンドウ、マルチモダリティ) を遅らせていると述べました。2
大小のクラウド プロバイダーによる大規模な H100 クラスターの容量が不足しています。3
「誰もが Nvidia にもっと A/H100 を生産してもらいたいと思っています」4 — クラウド プロバイダーの幹部からのメッセージ 「GPU が非常に不足しています。当社の製品を使用する人が少なければ少ないほど良いのです」十分な GPU がありません」 OpenAI5 CEO、Sam Altman 氏
これはユーザーがあなたの製品をどれほど愛しているかを世界に思い出させる素晴らしい声ですが、OpenAI にはさらに多くの GPU が必要であることも事実です。
Azure/マイクロソフトの場合:
-
内部的には GPU ワーカーをレート制限します。1970 年代の大学のメインフレームのように並べる必要があります。現在、OpenAI がそのすべてを吸収していると思います。
-
Coreweave の契約は GPU インフラストラクチャに釘付けになっています。
— 匿名
つまり、はい、H100 GPU は供給不足です。100 台または 1,000 台以上の H100 を探している企業にとって、Azure と GCP は実質的に容量が不足しており、AWS は段階的に廃止されようとしていると聞いています。6
この「容量不足」は、Nvidia が与えた割り当てに基づいています。
ボトルネックについて何を知りたいのでしょうか?
-
その原因(需要、供給)
-
どれくらい続くでしょうか
-
それを修正するのに何が役立ちますか
ディレクトリ番号
グラフィックソング#
良い。。。この記事を公開した同日に曲もリリースしました。火です。
GPU の曲を聞いたことがない場合は、ぜひ再生してください。
たった今ビデオを見ました。とても面白い。よくやった。—ムスタファ・スレイマン氏、Inflection AI CEO
Spotify、Apple Music、YouTubeにあります。
この曲の詳細については、こちらをご覧ください。
H100 GPU の要件#
ボトルネックの原因 - 需要
-
具体的には、人々は買いたいのに買えないものは何でしょうか?
-
これらの GPU は何個必要ですか?
-
なぜ異なる GPU を使用できないのでしょうか?
-
それぞれの製品名は何ですか?
-
企業はどこでそれらを購入し、その価格はいくらですか?
H100 が必要なのは誰ですか? #
「現時点では、みんなとその飼い犬が GPU を購入しているようです」7 – Elon
1,000 個以上の H100 または A100 が必要/持っている人#
-
LLM をトレーニングするスタートアップ
-
OpenAI (Azure 経由)、Anthropic、Inflection (Azure 8および Core Weave 9経由)、Mistral
-
クラウドサービスプロバイダー
-
ビッグ 3: Azure、GCP、AWS
-
もう 1 つのパブリック クラウド: Oracle
-
CoreWeave、Lambda などの大規模なプライベート クラウド
100 個以上の H100 または A100 が必要/持っている人#
大規模なオープンソース モデルに大幅な調整を加えるスタートアップ。
ほとんどのハイエンド GPU は何に使用されますか? #
プライベート クラウド (CoreWeave、Lambda) を使用している企業、数百または数千の H100 を使用している企業の場合、ほぼすべての LLM と一部の拡散モデルが機能します。これらの中には、既存のモデルを微調整したものもありますが、ほとんどは、新しいモデルをゼロから構築している、まだ知られていない新しいスタートアップです。彼らは、数百から数千の GPU を使用して、3 年間で 10 万ドルから 50 万ドルの契約を結んでいます。
少数の GPU でオンデマンド H100 を使用している企業の場合、おそらく LLM 関連の使用率は依然として 50% を超えています。
プライベート クラウドでは、通常はデフォルトの大手クラウド プロバイダーを使用する企業からのインバウンド需要が見られ始めていますが、誰もが撤退しています。
大規模な AI ラボでは推論やトレーニングに制約が多いのでしょうか? #
製品のトラクションがどの程度あるかによって異なります。Sam Altman 氏は、選択を迫られるなら、むしろ OpenAI のほうが推論機能が多いほうがよいが、OpenAI には依然として両方の制限があると述べました。11
どの GPU が必要ですか? #
主にH100です。なぜ?LLM の場合、推論とトレーニングが最も高速です (通常、H100 は推論に最適な価格/パフォーマンスでもあります)。
具体的には、8 GPU HGX H100 SXM サーバーです。
私の分析では、同じ仕事に就く方がコストも安くなります。V100 を見つけることができれば素晴らしいでしょうが、見つけることはできません – 匿名 正直に言うと、[これが最高のコストパフォーマンスである] かわかりません。A100 のトレーニング価格/パフォーマンス比は、H100 とほぼ同じです。推測すると、A10G は十分すぎるほどであり、はるかに安価であることがわかりました。– プライベート クラウド幹部 この [A10G で十分] は、しばらくの間真実でした。しかし、Falcon 40b と Llama 2 70b の世界では多くの用途が見られますが、それはもはや真実ではありません。正確には、これら 2xA100 には A100 が必要です。したがって、相互接続速度は推論にとって重要です。– (さまざまな) プライベート クラウド エグゼクティブ
LLM スタートアップの最も一般的なニーズは何ですか? #
トレーニング LLM の場合: H100、3.2Tb/s InfiniBand。
企業はどのような LLM トレーニングと推論を求めていますか? #
トレーニングには H100 を求める傾向がありますが、推論では 1 ドルあたりのパフォーマンスが重視されます。
H100 と A100 の 1 ドルあたりのパフォーマンスの問題は依然として残りますが、GPU の数が多いほど拡張性が高く、トレーニング時間が短縮され、モデルの速度/圧縮時間が重要であるため、一般に H100 が好まれます。スタートアップ。
「マルチノード トレーニングの場合、それらはすべて InfiniBand ネットワーキングを備えた A100 または H100 を要求します。私たちが確認している唯一の非 A/H100 要求は、ワークロードが単一の GPU または単一ノードである推論用です。」 – プライベート クラウド エグゼクティブ
LL.M. トレーニングの重要な要素は何ですか? #
-
メモリ帯域幅
-
FLOPS (テンソルコアまたは同等の行列乗算ユニット)
-
キャッシュとキャッシュの遅延
-
FP8計算などの追加機能
-
コンピューティングパフォーマンス (cuda コアの数に関連)
-
相互接続速度 (例: Infiniband)
H100 は、キャッシュ レイテンシーの短縮や FP8 コンピューティングなどの要因により、A100 よりも優れたパフォーマンスを発揮します。
H100 は、コストがわずか (1.5 ~ 2 倍) で効率が 3 倍高いため、推奨されます。システム全体のコストと組み合わせると、H100 は 1 ドル当たりのパフォーマンスが高くなります (システム パフォーマンスに注目すると、1 ドル当たりのパフォーマンスはおそらく 4 ~ 5 倍優れています)。— ディープラーニング研究者
LLM のトレーニングと運営にかかるその他のコストは何ですか? #
GPU は個別のコンポーネントの中で最も高価ですが、他にもコストがかかります。
システム RAM と NVMe SSD は高価です。
InfiniBand ネットワークは高価です。
クラスターを実行する総コストの 10 ~ 15% は、おそらく電力とホスティング (電力、データ センターの建設コスト、土地のコスト、スタッフ) にかかります。大まかに 2 つに分けられ、電力が 5 ~ 8%、電力が 5 ~ 10% になる可能性があります。その他のホスティングコスト要素 (土地、建物、スタッフ) の割合。
それは主にネットワークと信頼性の高いデータセンターです。AWS はネットワークの制限と信頼性の低いハードウェアのせいで使いにくい - ディープラーニング研究者
GPU についてはどうですか? #
GPU は重要な要件ではありませんが、役立つ場合があります。
超臨界状態とは言えませんが、パフォーマンスに影響はあります。それはボトルネックがどこにあるかによると思います。一部のアーキテクチャ/ソフトウェア実装では、ボトルネックは必ずしもネットワークではありませんが、GPUDirect の場合は 10 ~ 20% の差が生じる可能性があり、これは高価なトレーニングの実行としては妥当な数字です。そうは言っても、GPUDirect RDMA は最近では非常に普及しており、サポートされていることはほとんど言うまでもありません。非 InfiniBand ネットワークのサポートが強すぎるとは思いませんが、ニューラル ネットワーク トレーニング用に最適化されたほとんどの GPU クラスターには Infiniband ネットワーク/カードが搭載されています。パフォーマンスに影響を与える大きな要因は NVLink である可能性があります。これは Infiniband よりもまれですが、特定の並列化戦略がある場合にのみ重要です。そのため、強力なネットワークや GPUdirect などの機能を利用すれば、すぐに使える余計なソフトウェアが保証されます。ただし、コストや既存のインフラストラクチャの使用が懸念される場合、これは厳密な要件ではありません。– ディープラーニング研究者
LLM 企業が AMD GPU を使用できないのは何ですか? #
理論的には、企業は AMD GPU を大量に購入することができますが、すべてが機能するようになるには時間がかかります。開発に時間がかかる(たとえ 2 か月であっても)と、競合他社よりも市場投入が遅れる可能性があります。つまり、CUDA は現在 NVIDIA の堀になっています。- プライベート クラウド幹部 2 か月というのは桁違いの違いであり、意味のある違いではない可能性があります。「AMD MI250 GPU と MosaicML を使用した LLM のトレーニング」を参照してください。 - 10,000 個の AMD GPU または 10,000 個のランダムな起動を廃棄するリスクを負う機械学習エンジニアシリコンチップが危険にさらされている? これは約 300 億ドルの投資に相当します。– プライベート クラウド エグゼクティブ MosaicML/MI250 - AMD の可用性について質問した人はいますか? AMDはFrontierに必要以上のものを提供していないようで、現在TSMCのCoWoS能力はNvidiaに吸収されつつある。MI250 は実行可能な代替手段になる可能性がありますが、利用できません。– 退職した半導体業界の専門家
H100 と A100: H100 は A100 よりどれくらい高速ですか? #
3 ビット推論は約 5.16 倍高速です12。2 ビット トレーニングの場合、高速化は約 3.16 倍です。13
誰もが A100 から H100 にアップグレードしたいと考えていますか? #
ほとんどの人は、H100 を購入してトレーニングと推論に使用し、A100 を主に推論に使用するように切り替えたいと考えています。ただし、コスト、容量、新しいハードウェアの使用とセットアップのリスク、および既存のソフトウェアがすでに A100 用に最適化されているという事実を理由に、切り替えをためらう人もいるかもしれません。
はい、A100 は数年後には現在の V100 になるでしょう。パフォーマンスの制限により、現在 V100 で LLM をトレーニングしている人を知りません。ただし、これらは依然として推論やその他のワークロードに使用されます。同様に、ワークロードを H100 に移行する AI 企業が増えるにつれて、A100 の価格は下がりますが、特に推論に対する需要は常に存在します。– プライベート クラウドの幹部らは、巨額の資金を調達した一部の新興企業が最終的に廃業し、その後、多くの A100 が市場に戻ってくることももっともらしいと考えています。– (さまざまな) プライベート クラウド エグゼクティブ
時間が経つにつれて、人々は移動し、A100 は推論にさらに使用されるようになるでしょう。
V100はどうでしょうか?より高い VRAM カードは大型モデルに適しているため、最先端のグループは H100 または A100 を好みます。
V100 を使用しない主な理由は、brainfloat16 (bfloat16、BF16) データ型がないことです。これがなければ、モデルを簡単にトレーニングすることは困難です。OPT と BLOOM のパフォーマンスが悪いのは、主にこのデータ型がないことが原因です (OPT は float16 でトレーニングされ、BLOOM のプロトタイピングは主に fp16 で行われ、bf16 Medium で行われたトレーニング実行に一般化されたデータは生成されませんでした) — ディープラーニング研究者
H100、GH200、DGX GH200、HGX H100、DGX H100 の違いは何ですか? #
-
H100 = 1x H100 GPU
-
HGX H100 = OEM が 4 GPU または 8 GPU サーバーを構築するための Nvidia サーバー リファレンス プラットフォーム。Supermicro などのサードパーティ OEM によって構築されています。
-
DGX H100 = 8 つの H100 を備えた公式 Nvidia H100 サーバー。14 Nvidia が唯一のサプライヤーです。
-
GH200 = 1x H100 GPU と 1x Grace CPU。15
-
DGX GH200 = 256x GH200、16は2023 年末に利用可能になります。17 はNvidia によってのみ提供されます。
大手クラウド企業向けの MGX もあります。
この中で最も人気があるのはどれでしょうか? #
ほとんどの企業は、 18 GPU のDGX H100 サーバーや 4 GPU HGX H100 サーバーではなく、8 GPU HGX H100 を購入するでしょう。
これらの GPU の価格はいくらですか? #
1x DGX H100 (SXM) および 8x H100 GPU の価格は、必要なサポートを含めて 460 万ドルです。10万ドルのうち46万ドルはサポートが必要です。仕様は以下の通りです。スタートアップ企業は約 50,000 ドルのインセプション リベートを受け取ることができ、最大 8 台の DGX H100 ボックス、合計 64 台の H100 に使用できます。
1x HGX H100 (SXM) および 8x H100 GPU の価格は、スペック (ネットワーク、ストレージ、RAM、CPU) と販売者のマージンとサポート レベルに応じて 300k ~ 380k です。DGX H100 と同じ仕様で、この範囲の最高価格はサポートを含めて 36 万ドルから 38 万ドルです。
1x HGX H100 (PCIe) および 8x H100 GPU は、仕様にもよりますが、サポートを含めて約 30 万ドルです。
PCIe カードの市場価格は約 30,000 ~ 32,000 ドルです。
SXM カードは実際には個別のカードとして販売されていないため、価格を設定するのは困難です。通常は、4 GPU および 8 GPU サーバーとしてのみ販売されます。
需要の約 70 ~ 80% は SXM H100 で、残りは PCIe H100 です。最初の数か月間は PCIe カードが唯一入手可能なカードであったため、SXM セグメントの需要は増加しています。ほとんどの企業が 8 GPU HGX H100 (SXM) を購入していることを考えると、360 H380 あたりのおおよその支出は、他のサーバー コンポーネントを含めて 8,000 ~ 100,000 になります。
DGX GH200 (念のため、256x GH200 が含まれており、各 GH200 には 1x H100 GPU と 1x Grace CPU が含まれています) の価格はおそらく 15mm ~ 25mm の間になります。ただし、これは推測であり、価格表に基づいたものではありません。19
GPU はいくつ必要ですか? #
-
GPT-4 は 10,000 ~ 25,000 台の A100 でトレーニングされた可能性があります。20
-
Meta には約 21,000 台の A100 があり、Tesla には約 7,000 台の A100 があり、Stable AI には約 5,000 台の A100 があります。21
-
Falcon-40B は 384 機の A100 で訓練されました。22
-
Inflection は、GPT-3.5 同等モデルとして 3,500 H100 を使用します。23
ちなみに、3月までに22,000件が稼働中です。そして今日は5.k以上走ります。—ムスタファ・スレイマン氏、Inflection AI CEO
Elon 氏によると、GPT-5 には 30k ~ 50k H100 が必要になる可能性があります。モルガン・スタンレーは2023年5月に、GPT-25は000,000,2023のGPUを使用すると述べたが、2023年<>月の時点ですでにトレーニングされているとも述べた。Sam Altmanが<>年<>月ということは、まだトレーニングされていないことを意味する, そのためMSの情報が古い可能性があります。
GCP の H100 は約 25,000 ですが、Azure の H100 はおそらく 10,000 ~ 40,000 です。Oracle についても同様であるはずです。Azure の容量のほとんどは OpenAI 専用になります。
CoreWeave が 35,000 ~ 40,000 H100 でピッチに登場 - ライブではなく、予約に基づいています。
ほとんどのスタートアップ企業は H100 を何台注文しますか? #
LLM の場合: 微調整の場合、数十から数百前半。訓練のために、何千人もの人々。
会社はどれくらいの H100 を望んでいるでしょうか? #
OpenAI には 50k が必要になる場合があります。変曲点には 22k が必要です。24メタは 25,000 になるかもしれません (メタは実際には 100,000 以上を望んでいると言われています)。大規模なクラウドでは 30k が必要になる場合があります (Azure、Google Cloud、AWS、Oracle)。Lambda、CoreWeave、その他のプライベート クラウドの場合はおそらく 100 万です。アントロピック、ヘルシング、ミストラル、キャラクター、おそらくそれぞれ10,000。全体的な近似と推測ですが、その一部には、クラウドとクラウドからレンタルする最終顧客の詳細が含まれます。しかし、それは約432k H100です。約 35 ドル、それぞれ 15 ドル、約 800 億ドル相当の GPU。これにより、大量の H<> を必要とする ByteDance (TikTok)、Baidu、Tencent などの中国企業も除外されます。
また、Jane Street、JP Morgan、Two Sigma、Citadel など、数百の A100 または H100 から始まり、最大で数千の A/H100 を導入している金融会社も数多くあります。
これを Nvidia のデータセンターの収益と比較するとどうでしょうか?
2023 年 4 月 28 日のデータセンター収益は $<>.<>b ドルです。8 月25 日から 2023 年までのデータセンター収益は、同四半期の高いガイダンスのほとんどが他のセグメントではなくデータセンター収益の増加によるものと仮定すると、10 億ドル程度になる可能性があります。
そのため、供給不足が解消するまでにはしばらく時間がかかる可能性があります。しかし、私の売り込みもすべておそらく誇張されており、これらの企業の多くは今日すぐに H100 を購入するわけではなく、時間をかけてアップグレードすることになります。さらに、Nvidia は生産能力を積極的に増強しています。
それは可能だと思われます。特に最近、誰もが 4 桁または 5 桁の大規模な H100 を導入していることを考えると、40 万台の H100 は手が届かないように思えます。– プライベート クラウド エグゼクティブ
概要: H100 要件#
次のセクションに進むときに留意すべき主な点は、ほとんどの大規模 CSP (Azure、AWS、GCP、Oracle) とプライベート クラウド (CoreWeave、Lambda、その他さまざま) は、アクセスできる以上の H100 を必要とするということです。大手 AI 製品企業のほとんども、手に入る以上の H100 を望んでいます。通常、SXM カードを備えた 8 GPU HGX H100 ボックスが必要ですが、仕様とサポートに応じて、300 GPU サーバーあたり約 40 万ドルから 8,000 ドルの費用がかかります。数十万の H100 GPU (150 億個以上の GPU) が過剰になる可能性があります。供給が限られているため、NVIDIA は純粋に清算価格を見つけるために価格を上げることができ、ある程度はそうしています。ただし、H100 の割り当ては、最終的には Nvidia が誰に割り当てを希望するかによって決まることを知っておくことが重要です。
H100 グラフィックス カード#を供給します
ボトルネックの原因 - 供給
-
生産におけるボトルネックは何ですか?
-
どのコンポーネントですか?
-
誰がそれらを生産しますか?
H100 を作ったのは誰ですか? #
TSMC。
Nvidia は H100 の生産に他のチップ工場を使用できますか? #
実際にはそうではありません、少なくともまだではありません。彼らは過去にサムスンと協力したことがある。ただし、H100 およびその他の 5nm GPU では、TSMC のみが使用されます。これは、サムスンが最先端の GPU に対するニーズを満たすことができていないことを意味します。将来的にはインテルと協力し、またサムスンとも協力する可能性があるが、H100の供給を逼迫するような形ですぐに実現することはないだろう。
さまざまな TSMC ノードはどのように関連していますか? #
TSMC 5nmシリーズ:
-
N5 26
-
4N は、N5 の拡張バージョン、または N5P より下位のバージョンとして適しています。
-
N5P
-
4N は、N5P の拡張バージョンとして、または N5 未満の N5 の拡張バージョンとして適しています。
-
N4
-
N4P
H100 はどの TSMC ノードで製造されていますか? #
TSMC4N。これは、5nm シリーズに属する Nvidia の特別なノードであり、実際の 4nm ではなく、強化された 5nm です。
他に誰がこのノードを使用しますか? #
Apple ですが、ほとんどが N3 に移行し、N3 の容量のほとんどが維持されました。クアルコムと AMD も N5 ファミリの大口顧客です。
A100 はどの TSMC ノードを使用しますか? #
N7 27
通常、ファブのキャパシティーはどれくらい前に予約されますか? #
確かではありませんが、おそらく 12 か月以上かかるでしょう。
これはTSMとその大口クライアントにも当てはまります。彼らはそれをすべて一緒に計画しているため、TSM/NVDAはおそらく彼らのニーズを過小評価していたのでしょう – 匿名
生産にはどのくらいの時間がかかりますか (生産、パッケージング、テスト)? #
H6 の生産開始から H100 が顧客に販売されるまでには 100 か月かかります (会話から始まり、確認を希望します)
ボトルネックはどこですか? #
ウエハスタートはTSMCのボトルネックではありません。前述の CoWoS (3D スタッキング) パッケージングは TSMC の扉です。– 退職した半導体業界の専門家
H100 RAM #
GPU のメモリ帯域幅に影響を与えるものは何ですか? #
メモリの種類、メモリのバス幅、メモリのクロック速度。
主にHBMです。それを作るのは悪夢です。HBM は生産が難しいため、供給もほとんど限られています。HBM を入手したら、設計は直感的に従うことができます - ディープラーニング研究者
H100s ではどのようなメモリが使用されていますか? #
H100 SXM では、HBM3 です。28 H100 PCIe では、実際には HBM2e です。29
H100 の記憶を作ったのは誰ですか? #
バス幅とクロック速度は、GPU アーキテクチャの一部として Nvidia によって設計されています。
HBM3 メモリ自体については、Nvidia が SK Hynix のすべてまたはほとんどを使用していると思います。Nvidia が H100 で Samsung 製のものを使用したかどうかはわかりませんが、Micron が H100 で使用したものではないと思います。
HBM3 に関する限り、SK Hynix が最も多くの成果を上げており、次に Samsung がそれに遠くなく、そして Micron が大きく遅れています。SKハイニックスは生産を増やしているようだが、エヌビディアは依然として生産を増やしてほしいと考えており、サムスンとマイクロンはまだ生産を増やすことができていない。
GPUを作るときに他に何を使いますか? #
これらの部分の一部は他の部分よりもボトルネックになっていることに注意してください。
-
金属元素: これらの元素は GPU の製造に不可欠です。それらには次のものが含まれます。
-
銅: 導電性が高いため、電気接続を作成するために使用されます。
-
タンタル: 高い電荷を保持する能力があるため、コンデンサによく使用されます。
-
金:耐食性が高いため、高品質のメッキやコネクタに使用されます。
-
アルミニウム: 熱の放散を助けるためにヒートシンクによく使用されます。
-
ニッケル: 耐食性があるため、コネクタのコーティングとしてよく使用されます。
-
錫: コンポーネントをはんだ付けするために使用されます。
-
インジウム: 熱伝導率が高いため、サーマルインターフェースマテリアルに使用されます。
-
パラジウム: 一部の種類のコンデンサーや半導体デバイスに使用されます。
-
シリコン(半金属):これは半導体デバイスの製造に使用される主な材料です。
-
希土類元素: これらの元素は、その固有の特性により GPU のさまざまな部分で使用されます。
-
その他の金属および化学物質: これらは、シリコン ウェーハの作成から GPU の最終組み立てまで、製造のさまざまな段階で使用されます。
-
基板: GPU コンポーネントが取り付けられる材料です。
-
カプセル化材料: これらは GPU ダイを収容し、保護するために使用されます。
-
はんだボールとボンドワイヤ: これらは、GPU チップを基板やその他のコンポーネントに接続するために使用されます。
-
受動部品: これらには、GPU の動作にとって重要なコンデンサや抵抗器が含まれます。
-
プリント回路基板 (PCB): これは、GPU のすべてのコンポーネントが取り付けられる回路基板です。コンポーネント間の電気接続を提供します。
-
熱伝導性化合物: これらは、チップとヒートシンク間の熱伝達を改善するために使用されます。
-
半導体製造装置:フォトリソグラフィー装置、エッチング装置、イオン注入装置など
-
クリーン ルーム設備: シリコン ウェーハやその他のコンポーネントの汚染を防ぐために、GPU の製造に必要です。
-
テストおよび品質管理機器: これらは、GPU が必要なパフォーマンスと信頼性の基準を満たしていることを確認するために使用されます。
-
ソフトウェアとファームウェア: これらは、GPU の動作を制御し、コンピューター システムの他の部分とインターフェイスするために重要です。
-
梱包および配送資材: 最終製品を完璧な状態でお客様にお届けするために必要です。
-
ソフトウェア ツール: コンピューター支援設計 (CAD) およびシミュレーション用のソフトウェア ツールは、GPU のアーキテクチャの設計と機能のテストに不可欠です。
-
エネルギー消費: GPU チップの製造プロセスでは高精度の機械が使用されるため、大量の電力が必要です。
-
廃棄物管理: GPU の製造では廃棄物が発生します。使用される材料の多くは環境に有害な可能性があるため、適切に管理および処分する必要があります。
-
テスト能力: 機能とパフォーマンスを検証するためのカスタム/特殊なテスト装置。
-
チップパッケージング: シリコンウェーハを組み立てて、より大規模なシステムで使用できるコンポーネントパッケージを作成すること。
見通しと予測#
エヌビディアは何について話しているのでしょうか? #
Nvidiaは、今年下半期には供給量が増えることを明らかにしたが、それ以外は多くを語ったり、数値化したりすることはなかった。
「今日は当四半期の供給を検討していますが、今年下半期の供給も大量に調達しています。」 「今年下半期の供給は上半期よりも大幅に増えると考えています。」 - Nvidia CFO コレット・クレス氏、2023 年 <> 月から <> 月にかけての決算会見
次は何ですか?#
私たちは現在、不足によって GPU 容量が堀のように見なされ、さらなる GPU の買いだめにつながり、不足がさらに悪化するという自己強化サイクルに陥っているのではないかと考えています。– プライベート クラウド エグゼクティブ
H100の後継はいつ出るのでしょうか?#
Nvidia アーキテクチャ間の過去のタイミングに基づいて、2024 年末 (2024 年半ばから 2025 年初頭) まで発表されない可能性があります。
それまでは、H100 が Nvidia の最上位 GPU となります。(GH200 と DGX GH200 はカウントされません。これらは純粋な GPU ではありません。どちらも GPU として H100 を使用します)
より高いビデオ メモリ H100 は登場しますか? #
おそらく水冷120GB H100s。
不足はいつ解消されますか?#
私が話を聞いたあるグループは、実際には2023年末までに完売してしまうと話していました。
H100 #を購入
H100 を販売しているのは誰ですか? #
Dell、HPE、Lenovo、Supermicro、Quanta などの OEM が H100 および HGX H100 を販売しています。30
InfiniBand が必要な場合は、Nvidia の Mellanox に直接問い合わせる必要があります。31
そのため、CoreWeave や Lambda などの GPU クラウドは OEM から購入し、スタートアップにリースします。
ハイパースケーラー (Azure、GCP、AWS、Oracle) は Nvidia とより直接的に連携しますが、多くの場合、OEM とも連携します。
DGX の場合でも、OEM を通じて購入することになります。Nvidia と相談することもできますが、OEM を通じて購入することになります。Nvidia に直接注文することはありません。
納期はどうですか?#
8 GPU HGX サーバーのリード タイムはひどいものですが、4 GPU HGX サーバーのリード タイムは良好です。誰もが 8 GPU サーバーを望んでいます。
スタートアップが今日注文した場合、いつ SSH にアクセスできるようになりますか? #
これは時間差での展開となります。これが 5,000 GPU の注文だとしましょう。4 か月で 2-000 または 4,000 を獲得し、残りは合計約 6 か月かかる可能性があります。
スタートアップは OEM や再販業者から購入しますか? #
いいえ。スタートアップ企業は通常、アクセスをリースする Oracle などの大規模クラウド、Lambda や CoreWeave などのプライベート クラウド、または OEM や FluidStack などのデータセンターと連携するプロバイダーを利用します。
スタートアップ企業が独自のデータセンターを構築するのはホスティングではない場合ですか? #
データセンターの構築に関して考慮すべき点は、データセンターの構築にいつかかるか、スタッフとハードウェアの経験があるか、資本支出が高額かどうかです。
レンタルやコロサーバーが簡単になります。独自の DC を構築したい場合は、インターネットに接続するために自分の場所にダーク ファイバー回線を敷設する必要があり、1 キロメートルあたり 10 万ドルかかります。インフラストラクチャの多くは、ドットコム ブームの間にすでに構築され、支払われています。かなり安くレンタルできるようになりました - Private Cloud Executive
リースから所有までの範囲は、オンデマンド クラウド (クラウド サービスを使用した純粋なリース)、リザーブド クラウド、コロ (サーバーを購入し、プロバイダーと協力してサーバーをホスティングおよび管理する)、セルフホスティング (サーバーを自分で購入してホスティングする) です。
大量の H100 を必要とするほとんどのスタートアップは、予約済みのクラウドまたはコロニーを利用します。
ビッグクラウドと比較してどうですか? #
Oracle インフラストラクチャは、大手 3 つのクラウドに比べて信頼性が低いと考えられています。その代わりに、オラクルは追加の技術サポート支援と時間を提供します。
100%。不幸な顧客がたくさんいます (笑) – プライベート クラウド幹部 [Oracle] の方が優れたネットワークを持っていると思います – (別の) プライベート クラウド幹部
一般に、スタートアップはサポート、価格、容量の最適な組み合わせを提供する企業を選択します。
Big Cloud の主な違いは次のとおりです。
-
ネットワーキング (AWS と Google Cloud は独自のアプローチを採用しているため、InfiniBand の導入が遅れていますが、大規模な A100/H100 クラスターを探しているほとんどのスタートアップは InfiniBand を探しています)
-
可用性 (Azure の H100 は主に OpenAI 用です。GCP は H100 を取得するために懸命に取り組んでいます。
Nvidiaは、競合する機械学習チップを構築していないクラウドへの割り当てを改善する方向に傾いているようだ。(これはすべて推測であり、厳密な真実ではありません。3 つの大手クラウドはすべて機械学習チップを開発していますが、AWS と Google の Nvidia の代替品はすでに利用可能であり、すでに Nvidia ドルの費用がかかる可能性があります。
これも推測ですが、Nvidia がこの理由で Oracle を好むことに同意します – Private Cloud Exec
一部の大きなクラウドは他のクラウドよりも安価です。あるプライベート クラウド幹部は次のように述べています。「たとえば、a100 は AWS/Azure では GCP よりもはるかに高価です。
オラクルは、今年後半に「数千台のうち数百台の H10」がオンラインになる予定だと私に語った。彼らは Nvidia との特別な関係を自慢しています。しかし。。。価格に関しては、他よりもはるかに高いです。彼らは H100 の価格を提示しませんでしたが、A100 80GB については 1 時間あたり 4 ドル近くの見積もりを出しました。これは、同じハードウェアと同じコミットに対して GCP が提示した金額のほぼ 2 倍です。- 匿名
大きなクラウドの 1 つが株式と引き換えに奇妙な取引を行う場合を除いて、小さなクラウドの方が価格が高くなります。
Oracle と Azure > GCP と AWS の関係のようになります。しかし、それは単なる推測です。
Oracle は最初に A100 を発売し、Nvidia と提携してNvidia ベースのクラスターをホストしました。Nvidia はAzure の顧客でもあります。
どの大きなクラウドが最高のネットワークを持っていますか? #
Azure、CoreWeave、Lambda はすべて InfiniBand を使用します。Oracle には優れたネットワークがあり、3200 Gbps ですが、InfiniBand ではなくイーサネットであるため、パラメーター数が多い LLM トレーニングなどの使用例では、IB よりも約 15 ~ 20% 遅くなる可能性があります。AWSとGCPのネットワークはあまり良くありません。
企業はどの大きなクラウドを使用していますか? #
約 15 社の企業からなるプライベート データ ポイントでは、15 社すべてが AWS、GCP、または Azure であり、Oracle はゼロです。
ほとんどの企業は既存のクラウドを使い続けるでしょう。絶望的なスタートアップがどこへ行っても、供給はある。
DGX Cloud についてはどうですか? Nvidia は誰と協力していますか? #
「NVIDIA は、Oracle Cloud Infrastructure (OCI) を皮切りに、DGX クラウド インフラストラクチャをホストするために主要なクラウド サービス プロバイダーと協力しています。」 - あなたは Nvidia の販売を担当していますが、既存のクラウド プロバイダーを通じてリースしています (まず Oracle、次に Azure、次に Google Cloud) AWS で起動する代わりに) 32 33
「理想的な組み合わせは、Nvidia DGX クラウドが 10%、CSP クラウドが 90% です」とジェンセン氏は前回の決算会見で述べました。
Dayun はいつ H100 プレビューを開始しますか? #
CoreWeave が最初でした。34 Nvidia は、おそらくビッグクラウド間の競争を促進するために、より早い割り当てを与えました (Nvidia は投資家であるため)。
Azure は 100 年 13 月 13 日に、H<> がプレビューできるようになったと発表しました。35
Oracle は 21/21 に、H<> の数が制限されていることを発表しました。36
Lambda Labs は 21/21 に <> の先頭に H<> を追加すると発表しました。37
AWS は 21/21 に、H<> が数週間以内にプレビューで利用可能になると発表しました。38
Google Cloud は 10 月 100 日、H<> のプライベート プレビューの提供を開始したと発表しました。39
どの企業がどのクラウドを使用していますか? #
-
OpenAI:Azure。
-
バリエーション: Azure と CoreWeave。
-
人間: AWS と Google Cloud。
-
ここ:AWSとGoogle Cloud。
-
抱き顔:AWS。
-
安定性 AI: CoreWeave と AWS。
-
Character.ai: Google Cloud。
-
X.ai: オラクル。
-
エヌビディア:アズール。35
企業やクラウド サービス プロバイダーはどうすればより多くの GPU を入手できるでしょうか? #
究極のボトルネックは、Nvidia からの割り当てを取得することです。
Nvidia の割り当てはどのように機能しますか? #
各顧客に割り当てられた割り当てがあります。しかし、たとえば、Azure が「Inflection で 10,000 H100 を使用してほしい」と言っているのと、Azure が「Azure のクラウドで 10,000 H100 を使用してほしい」と言っているのは同じではありません。Nvidia はエンド カスタマーが誰であるかを考慮しているため、Nvidia Excited がエンド顧客に関しては、クラウドは特定のエンド顧客に対して追加の割り当てを取得できる場合があります。Nvidia はまた、最終顧客が誰であるかについて可能な限り知りたいと考えています。彼らは、美しいブランドを持つクライアントや、強力な血統を持つ新興企業を好みます。
はい、そのようです。NVIDIA は、新興 AI 企業 (その多くは AI 企業と密接な関係にあります) に対して GPU へのアクセスを保証することを好みます。彼らが投資した AI 企業 Inflection をチェックしてください。彼らも投資した CoreWeave 上の巨大な H100 クラスターをテストしています。– プライベート クラウド エグゼクティブ
クラウドが Nvidia をエンド顧客に連れてきて、xxxx H100 を購入する準備ができていると言った場合、Nvidia がそのエンド顧客に興奮した場合、通常、割り当てを与えることで、Nvidia がそのクラウドに割り当てる総容量が事実上増加します。そのクラウドに対する Nvidia の元の割り当てにはカウントされません。
Nvidia がプライベート クラウドに大規模な割り当てを提供しているため、これは特殊な状況です。CoreWeave には GCP よりも多くの H100 が割り当てられています。
Nvidia は、直接競争しようとする企業 (AWS Inferentia と Tranium、Google TPU、Azure Project Athena) に多額の助成金を与えることに消極的です。
しかし、最終的には、Nvidia の前で発注書と資金を出し、より大きな取引とより多くの資金を約束し、リスクの低いプロフィールを示しれば、他の誰よりも多くの割り当てを獲得できることになります。
エピローグ#
現在、GPU に依存しています。私たちはサム・アルトマンの言うところの「これらの巨大なモデルが存在する時代の終わり」に来ているにもかかわらずです。
どこから見るかによって、それは泡のようであるかそうでないかのどちらかです。OpenAI のような一部の企業は、ChatGPT のような市場に適合した製品を提供していますが、十分な GPU を入手できません。また、将来のアクセスに備えて GPU 容量を購入または予約したり、製品市場に適合する可能性が低い LLM をトレーニングしたりしている企業もいます。
Nvidia は今や城の緑の王です。
GPU の需要と供給の推移を追跡する#
製品市場への適合性が最も高い LLM 製品は ChatGPT です。ChatGPT に関連する GPU 要件の話は次のとおりです。
-
ユーザーは ChatGPT を愛しています。年間 500 億ドル++の経常収益を生み出す可能性があります。
-
ChatGPT は GPT-4 および GPT-3.5 API で実行されます。
-
GPT-4 および GPT-3.5 API を実行するには GPU が必要です。たくさんの。OpenAI は、ChatGPT とその API 用にさらに多くの機能をリリースしたいと考えていますが、十分な GPU にアクセスできないため、リリースできません。
-
彼らは Microsoft/Azure を通じて多くの Nvidia GPU を購入しています。具体的には、彼らが最も望んでいる GPU は Nvidia H100 GPU です。
-
H100 SXM GPUを製造するために、Nvidiaは製造にTSMCを使用し、TSMCのCoWoSパッケージング技術を使用し、主にSK HynixのHBM3を使用します。
GPU を望んでいるのは OpenAI だけではありません (ただし、製品と市場の適合性が最も高い企業は OpenAI です)。他の企業も大規模な AI モデルをトレーニングしたいと考えています。これらのユースケースの中には理にかなったものもありますが、誇大宣伝に主導され、製品市場に適合する可能性が低いものもあります。これにより需要が高まります。また、将来的に GPU が利用できなくなることを懸念し、まだ必要ではない場合でも今発注する企業もあります。つまり「供給不足がさらなる供給不足を生み出すという期待」が起きているのだ。
GPU 需要のもう 1 つの主な要因は、新しい LLM を作成したい企業によるものです。新しい LLM を構築したい企業の GPU の必要性についての話は次のとおりです。
-
企業の経営者や創業者は、人工知能の分野に大きなチャンスがあることを知っています。おそらく、彼らは独自のデータで LLM をトレーニングし、それを外部で使用したり、アクセスを販売したいと考えている企業、または LLM を構築してアクセスを販売したいと考えているスタートアップである可能性があります。
-
彼らは、大規模なモデルをトレーニングするには GPU が必要であることを認識していました。
-
彼らは、H100 を大量に獲得しようとしている大きなクラウド (Azure、Google Cloud、AWS) の何人かと話しました。
-
彼らは、大規模なクラウドからは多くの割り当てを取得できず、一部の大きなクラウドには適切なネットワーク設定がされていないことがわかりました。そこで彼らは、CoreWeave、Oracle、Lambda、FluidStack などの他のプロバイダーと話し合いました。彼らが GPU を自分で購入して所有したい場合は、OEM や Nvidia にも相談するかもしれません。
-
最終的に、彼らは大量の GPU を手に入れました。
-
現在、彼らは製品のマーケットフィットを達成しようとしています。
-
明らかではないとしても、この道はそれほど良いものではありません。OpenAI は小規模なモデルで製品市場への適合を達成し、その後、それらをスケールアップしたことを思い出してください。ただし、現在製品をマーケットフィットさせるには、OpenAI のモデルよりもユーザーのユースケースに適合させる必要があるため、まず第一に、OpenAI の当初よりも多くの GPU が必要になります。
H100 は、少なくとも 2023 年末までに数百または数千の導入が不足すると予想されます。状況は2023年末までに明らかになるだろうが、今のところ、2024年のある時点までは品不足が続く可能性が高いと思われる。
GPU の需要と供給のツアー。大きなバージョン
連絡する#
著者:クレイ・パスカル。質問やメモは電子メールで送信できます。
新しい投稿:新しい投稿に関する通知を電子メールで受け取ります。
ヘルプ:ここを参照してください。
次の当然の質問は、Nvidia の代替製品についてはどうでしょうか? #
次の自然な質問は、「競合他社や代替案はどうですか? ソフトウェア アプローチだけでなくハードウェアの代替案も検討しています。代替案として調査すべきものをこのフォームに送信してください。たとえば、ハードウェア上の TPU、Inferentia、LLM ASIC などです。ソフトウェア側の他の製品、および Mojo、Triton などの製品、AMD ハードウェアとソフトウェアを使用するとどうなるかについて、現在利用可能なものに焦点を当てながら、すべてを調査しています。 Llama 2 を別のハードウェアで実行する場合はメールでご連絡ください。これまでのところ、AWS Silicon、Rain、Groq、Cerebras などの人々の協力を得て、AMD、Gaudi 上で TPU と Inferentia を実行してきました。
確認#
この記事には、大量の独自情報および未公開情報が含まれています。GPU の生産性について疑問に思っている人を見かけたら、この記事の方向性を教えてください。
プライベート GPU クラウド会社の少数の経営陣や創設者、一部の AI 創設者、ML エンジニア、深層学習研究者、その他の業界の専門家、および有益なコメントを提供してくださった業界以外の読者の方々に感謝します。ハミドさん、イラストありがとうございます。
A100\H100 は基本的に中国本土ではますます少なくなっており、現在 A800 が H800 に取って代わりつつあります。本当に A100\A800\H100\H800GPU が必要な場合は、こだわりを持たないことをお勧めします。ほとんどのユーザーにとって、HGX と HGX の違いはPCIE版はありません。 非常に大きいので、在庫があればすぐに購入できます。
いずれの場合でも、協力する正規のブランドメーカーを選択してください。需要と供給のバランスが崩れている現在の市場状況では、市場のほとんどの販売業者は真実ではない情報を提供することさえできません。科学研究サーバーであれば、Fenghu Yunlong Scientific研究サーバーは第一選択であり、マイニング、品質、アフターサービスが保証されています。
チェンマネージャー【173-1639-1579】とのコミュニケーションを歓迎します
機械学習、深層学習、強化学習の関係と違いは何ですか? - Zhihu (zhihu.com)主な応用分野と人工知能 (AI) の 3 つの形式:弱い人工知能、強い人工知能、超人工知能。ハードウェア サーバーを購入するのとクラウド サーバーをレンタルするのは費用対効果が高くなりますか? - Zhihu (zhihu.com) 深層学習機械学習の知識ポイントの包括的なまとめ - Zhihu (zhihu.com) 独習機械学習、深層学習、人工知能の Web サイトはこちら - Zhihu (zhihu.com) 2023 深層学習 GPU 推奨サーバー構成のリファレンス (3) - Zhihu (zhihu.com)
長年科学計算サーバーに注力しており、政治マイニング プラットフォームの最終候補に挙げられた H100、A100、H800、A800、RTX6000 Ada、シングル デュアル ソケット 192 コア サーバーが販売されています。
長年科学コンピューティング サーバーに注力しており、政治マイニング プラットフォームの最終候補に挙げられた、H100、A100、H800、A800、RTX6000 Ada のシングル デュアル ソケット 192 コア サーバーが販売されています。