AIGC は GPU または CPU に依存しますか? 2 つのハイパフォーマンス コンピューティング テクノロジの進化の方向性

2023年のAI業界は急増していると言えます。ChatGPTの誕生により、生成AI技術は一夜にして世界中で普及し、これまで人工知能を理解していなかった多くの一般人も大型モデルに強い関心を持ち始めました。メディアや研究機関は、ChatGPT、StableDiffusion、Midjourney、その他の大規模なテキストおよび画像モデルなどのどの業界に破壊的な影響を与えるかを示す長文のトピックを立ち上げ、多くの従業員や企業が生産性を向上させるためにこれらの大規模なモデルを使用し始めています。日常業務の中で、さらには人間のポストに置き換わることさえあります。2023 年が大型模型技術の爆発的な転換点となることは間違いなく、広範囲にわたる技術革命がゆっくりと始まりつつあります。

AI 業界では、OpenAI が一時的に ChatGPT とともに主導的な立場にありますが、巨大な市場の見通しにより、多数の企業や科学研究機関が大型モデルの戦場に参加するよう引き寄せられています。Google、Meta、Baidu、Ali、ByteDance、Tencent、JD.com、iFLYTEK、Pangu...多くのインターネット大手、新興企業、大学が独自の大規模モデルサービスやプランをリリースしています。ChatGPT は AI の軍拡競争を引き起こし、少し力のあるインターネット企業は、この稀有な歴史的機会をしっかりと掴むことを望んで、積極的または消極的にそれに参加しています。

大型モデルの突然のブームにより、業界のハードウェア インフラストラクチャの需要も急増しました。数千億、さらには数兆のパラメータを持つ超大規模モデルには、膨大なコンピューティング能力のサポートが必要であり、一般的な大規模モデル サービスを運用するには、通常、数千台のマルチ GPU サーバーが必要です。コンピューティング能力に対するこのような大きな需要は企業に大きな負担をもたらしており、コアハードウェアの入手が困難であることが状況をさらに悪化させています。

一方で、ChatGPTのような超大規模な汎用モデルの業界実践への応用の可能性も疑問視されている。垂直産業では、ドメイン知識に最適化された中小規模のモデルの方がパフォーマンスが向上する可能性があると多くの意見が考えられています。これらの中小規模モデルのトレーニング コストは、汎用の大規模モデルに比べて大幅に低く、高価で入手困難な GPU ハードウェアへの依存度が高くなく、AI を備えた新世代の CPU を使用できます。高速化ハードウェアや専用AI高速化チップなどを搭載し、より効率的な業界向けやSMB向けの用途に適しています。

AI 生産性向上のための
GPU だけが選択肢ではない

AI では、GPU が唯一のコンピューティング ハードウェア オプションとみなされます。膨大な並列コンピューティング リソースを使用することで、GPU はディープ ラーニング プロセスで行列演算を迅速に処理でき、モデルのトレーニングと推論の速度が大幅に向上します。

しかし、GPU の価格の高さ、メモリ容量の制限、サプライ チェーンの問題、拡張性の不足などの問題により、企業や開発者は、CPU などのソリューションを使用して、一部の AI 生産性シナリオでより高いコスト パフォーマンスを実現できることに気づき始めています。たとえば、Hugging Face のリード AI エバンジェリストである Julien Simon 氏は、最近、多くの ChatGPT よりも高速な、32 コアの第 4 世代インテル® Xeon® スケーラブル プロセッサー上で実行される 70 億パラメーターの言語モデル Q8-Chat をデモしました。Q8-Chat は、MosaicML のオープンソース MPT-7B 言語モデルをベースにしており、第 4 世代インテル® Xeon® スケーラブル プロセッサーの AI 高速化エンジンを最大限に活用してパフォーマンスを向上させています。CPU は優れたシリアル コンピューティング能力を備えているため、シリアル コンピューティングまたはハイブリッド コンピューティングに依存する AI タスクでは、CPU の方が GPU よりも優れたパフォーマンスを発揮することがよくあります。

さらに、CPU は、モデル トレーニング シナリオでは GPU ほど高速ではないことがよくありますが、推論シナリオでは同様のレベルのパフォーマンスを提供できます。同時に、CPU の拡張が容易なメモリ、ソフトウェア互換性、優れた拡張性により、企業は AI 推論シ​​ステムのソフトウェア スタックを選択する際に、より高い柔軟性を得ることができます。このため、Meituan、Alibaba Cloud、Meta などの大手インターネット企業は、CPU を使用して、一部のシナリオにおける AI 推論とトレーニングのパフォーマンスを向上させ、AI ハードウェアの調達コストを削減し、特定の AI ソフトウェア スタックへの依存を減らす方法を模索しています。AI業界においてCPUの重要性は日に日に高まっています。

レコメンダー システムから視覚的推論まで、
AI における CPU の進化

AI ハードウェアに関して言えば、CPU は長い間「緑の葉」の役割を果たしてきました。開発者は通常、CPU がサポートできる GPU コンピューティング カードの数と、それらが長時間安定して動作できるかどうかのみを気にしており、AI アプリケーションを実行するために CPU を使用するためのコンピューティング能力要件については基本的に考慮していません。理由も非常に単純で、GPUに比べてCPUの並列演算能力が低すぎるからです。

しかし、今日この状況は好転しました。2022 年末には、AMX アクセラレーション テクノロジーを搭載した第 4 世代インテル® Xeon® スケーラブル プロセッサーが発売され、CPU は多くのアプリケーション シナリオでハイエンド GPU に匹敵する AI パフォーマンスを初めて実現できるようになります。AMX は、CPU コアの AI コンピューティング用に特別に設計されたアクセラレーション モジュールと見なすことができ、INT8 および BF16 コンピューティングに最適化されており、従来の AVX 命令セットと比較して、1 サイクルの命令スループットのパフォーマンスが桁違いに高くなります。AMX のおかげで、第 4 世代インテル® Xeon® スケーラブル プロセッサーの AI コンピューティング能力が大幅に向上し、一部の分野では GPU を上回るコストパフォーマンスを実現しました。

推奨システム

レコメンデーション システムは、非常に重要で一般的な人工知能アプリケーションです。通常、ナレッジ ベース、トピック モデル、ユーザー/ビデオ ポートレート、リアルタイム フィードバック/統計、レコメンデーション エンジンなどの基本コンポーネントが含まれています。大量のデータを分析し、ユーザーに提供することができます。パーソナライズされたコンテンツとサービスを提供して、ユーザーの価値を向上させます。

最新のレコメンデーション システムには、AI のコンピューティング能力に対する高い要件があります。世界最大の電子商取引大手であるアリババの中核レコメンデーション システムは、天猫と淘宝網の巨大な世界的顧客ベースからの毎秒数億件のリクエストをリアルタイムで処理する必要があります。システムは、ユーザー エクスペリエンスを保証するために、AI 推論タスクの処理時間が厳格な遅延しきい値内にあることを保証する必要がありますが、同時に、推奨の品質を保証するために一定の推論精度を確保する必要があります。パフォーマンスとコストのバランスを達成するために、アリババは最近、推奨システムで AI 推論などのワークロードを処理する CPU の使用を開始し、パフォーマンスの最適化のために第 4 世代インテル® Xeon® スケーラブル プロセッサーを選択しました。

アリババはインテルと協力して、インテル oneAPI ディープ ニューラル ネットワーク ライブラリを使用してコア推奨モデルのスタック全体に AMX アクセラレーション エンジンを適用しました。AMX、BF16 混合精度、8 チャネル DDR5、大規模なキャッシュ、より多くのコア、効率的なコア間通信、およびソフトウェアの最適化により、主流の 48 コア第 4 世代インテル® Xeon® スケーラブル プロセッサーは、プロキシ モデルのスループットを向上させることができます。これは、主流の 32 コアの第 3 世代インテル® Xeon® スケーラブル プロセッサーを上回り、レイテンシーを厳密に 15 ミリ秒未満に保ちながら、約 3 倍向上しています。このパフォーマンスはすでにアリババが採用しているハイエンド GPU ソリューションに匹敵しており、同時にコストと柔軟性の点でより強力な利点を持っています。アリババのソリューションは実稼働環境に導入され、ダブル イレブン ショッピング フェスティバルなどのピーク負荷圧力のテストを経験しました。

おすすめ

転載: blog.csdn.net/YDM6211/article/details/131434167