AI時代のGPU不足にCIOはどう対処するか

オープンソースの中国コミュニティチームは、共有の名のもとに、オープンソースの中国コミュニティの背後にあるストーリーを伝える初のライブブロードキャストを行いました。」

CIO は、モデルファーストの考え方を採用し、使用率を最適化し、負荷分散を戦略的に採用することで、チップ不足を軽減できます。

著者 Liam Crilly のHow CIOs Can Battle GPU Poverty in the Age of AIより翻訳。

人工知能時代のゴールドラッシュが到来しましたが、多くの企業ではつるはしが在庫切れになっています。人工知能の需要が急増するにつれ、「GPU 不足」として知られる現象が CIO を悩ませており、データセンターの建設能力、そしてより重要なことに、データセンターに電力を供給するために必要なチップの建設能力を上回っています。

簡単に言えば、GPU 不足とは、 AI コンピューティングに GPU を使用しようとしている組織が、さまざまな種類の機械学習を実行する最も効率的な方法であるこれらの強力な並列処理システムの容量を購入できないことを意味します。

この欠乏は完璧な嵐の完璧な嵐から生じます。強力なグラフィックス処理装置のチップが世界的に不足しているため、新興企業は特に GPU を購入するために資金を調達しています。収益が発生する前に巨額の設備投資が必要であることを考えると、まさにクラウドコンピューティングが解決する問題であることを考えると、狂気の戦略です。さらに、人工知能のワークロードに対する需要も高まっています。

OpenAI や Google などの AI サービスを活用したり、クラウドで AI モデルやツールチェーンを活用しようとする企業が増えるにつれ、GPU の価格設定への圧力が高まっており、新興企業やその他のサービスが十分に受けられていない企業にとって GPU はさらに手の届かない金額になっています。組織には余裕がある。

GPU の枯渇は、サプライチェーン全体と AI ビルダーのツールベルト全体で満ち引きしています。データセンターの建設機械は、バックアップ発電機や変圧器など、需要の中核となるコンポーネントの数年にわたる未処理に直面しています。安い不動産、安くて豊富な電力、そして世界中のインターネットへの高速接続を備えた適切な場所を見つけることさえ、より困難になっています。

次に、チップの不足の問題があります。半導体工場は生産を維持するのに苦労しており、新しい工場を迅速に建設する取り組みが実を結ぶのは何年もかかるだろう。

その一方で、ハイパースケールクラウドプロバイダーや大企業は限られた GPU の生産供給を食い尽くし、価格の高騰を引き起こしています。多くの企業、特に底なしの予算を持たない企業にとって、AIアプリケーション用にクラウド内の GPU にアクセスすることの難しさは、重大なビジネスリスクになりつつあります。

ただし、賢明な CIO であれば、エンタープライズ AI の実行に必要なリソースを削減する常識的な手順を実行することで、GPU の異常事態を軽減できます。

節約的なモデルと推論の使用

身軽に旅行することを学ぶ機知に富んだ旅行者と同じように、データサイエンティストは、より小型で効率的な AI モデルを使用して驚くべき結果を達成できます。たとえば、教科書と超高品質データに基づいてトレーニングされた Microsoft の Phi-2 モデルは、コンパクトでエネルギー効率が高く、調整や推論に必要な計算量が少なくなります。

量子化や枝刈りなどの新しい技術により、研究者は精度を犠牲にすることなく巨大モデルを縮小できます。 TensorFlow Lite のようなフレームワークは、これらの無駄のないモデルをエッジデバイスにデプロイするように特別に設計されており、Hugging Face のようなスタートアップ企業は、事前トレーニングされた効率的なモデルへのアクセスを民主化しています。 PyTorch フレームワークを担当するチームは、より少ないデータとオーバーヘッドでモデルを効率的にトレーニングするための新しい方法も作成しています。

すべてを最適化する

GPU 時間が驚異的な価格で利用できるため、AI ワークロードの最適化は迅速かつ大きな成果を上げることができます。 AI エンジニアリングチームと MLOps チームは、パフォーマンスを積極的かつ頻繁に分析してボトルネックを特定する必要があります。これは、必ずしも簡単ではないため、特定のタスクに最適な最も効率的な設定を見つけるために、さまざまな構成 (バッチサイズ、GPU の数) のベンチマークを行うことを意味する場合があります。

精通したチームは、トレーニング中にデータ精度 (FP16、FP32 など) を組み合わせて調整して、メモリ使用量を削減し、より大きなバッチサイズを実行します。データのプリフェッチや正確なタイミングでのデータ転送などの手法を使用してメモリ割り当てとデータ移動を管理し、コンピューティングの可用性を厳密に追跡すると役立つ場合があります。

AI ジョブに最適なバッチサイズを見つけることが重要です。バッチサイズが大きいほど GPU が有効に活用されますが、バッチサイズが大きすぎるとメモリ不足エラーが発生する可能性があります。実験してスイートスポットを見つけてください。より大きな GPU を使用している場合、または多くの GPU 容量を予約している場合は、必ず GPU 仮想化ソフトウェアを試してください。これにより、モデルのトレーニングに必要な貴重で希少な計算を再利用したり、AI アプリケーションの動作に必要なより一般的なモデル推論に対処するために大規模な調整を行ったりすることができます。

最後に、可能であれば、自動スケーリングをサポートするコンテナー上にデプロイして、リアルタイムの需要に基づいてワークロードに割り当てられる GPU の数を動的に調整します。これにより、ピーク時に適切なリソースを確保しながら、過剰なプロビジョニングを回避することができます。

AI の負荷分散を調整する

適切に調整された負荷分散により、GPU 不足の課題に対処しながら、AI ジョブがタイムアウトなしで必要なリソースを確実に取得し、セキュリティが強化されます。これは、AI タスクのさまざまなコンピューティング要件を特定するという点で、従来の負荷分散とは異なります。

AI 固有のロードバランサーは、ワークロードを分析し、CPU と GPU のニーズを評価し、時間に敏感な操作に優先順位を付けることで、最適なハードウェア全体に作業を動的に分散できます。このアプローチは、CPU に依存する作業をよりコスト効率の高いリソースにオフロードしながら、その能力を本当に必要とする操作のために高価な GPU を保護します。

重要なのは、AI 固有の負荷分散により、トークン管理制御に新しい次元が導入されることです。トークンが役割を果たす AI システム (言語モデル) では、負荷のバランスをとることはハードウェアの効率だけではありません。ロードバランサーは、AI ジョブに関連付けられたトークンの使用状況を監視し、リクエストを動的に再ルーティングして、トークンの消費を最適化し、コストの超過を防ぐことができます。

さらに、AI ロードバランサーは、潜在的なセキュリティへの影響とトークンの感度に基づいてジョブをインテリジェントにルーティングすることで、高リスクのワークロードを分離し、AI システムに追加の保護層を提供します。このような負荷分散戦略を実装するには、フレームワークの統合、堅牢な監視、クラウドベースの AI負荷分散ソリューションの潜在的なコスト削減について慎重に検討する必要があります。

AI によって調整されたロードバランサーは、より詳細な制御 (たとえば、トークンベースのレート制限や、トークンの使用量やコストの点で最も経済的な LLM クラスターにジョブを送信または移動するアルゴリズムなど) を提供する可能性があります。

未来(希望)は豊かです

良いニュースは、業界が黙ってはいないということです。チップメーカーは生産努力を強化しており、AI専用に設計された新しいチップアーキテクチャが間もなくリリースされます。より多くの AI データセンターがオンラインになるでしょう。多くの賢明な開発者やエンジニアリングチームは、AI モデルの動作方法を常に改善し、パフォーマンスを維持または向上させながらトレーニングの負担を軽減しています。

ただし、これらの解決策は一夜にして現れるものではありません。同時に、モデルファーストの考え方を採用し、使用率を最適化し、ロードバランシングを戦略的に使用することで、CIO は現在のインフラストラクチャバブルの最悪の影響を軽減し、GPU の枯渇を回避し、業務を遂行するために組織に適切な AI を確保することができます。それはやらなければならないことだ。

この記事はYunyunzhongsheng ( https://yylives.cc/ ) で最初に公開されたもので、どなたでもご覧いただけます。