Amazon クラウド テクノロジー インフラストラクチャは、大規模なモデル推論の技術サポートを提供します

2019 Amazon Cloud Technology re:Invent で、Amazon Cloud Technology は新しいインフラストラクチャ Inferentia チップと Inf1 インスタンスをリリースしました。Inferentia は、コスト効率の高い低レイテンシー予測を大規模に提供するために、Amazon Cloud Technologies によってカスタム設計された高性能機械学習推論チップです。4 年後の 2023 年 4 月、Amazon Cloud Technology は、大規模モデル推論の技術サポートを提供することを目的として、Inferentia2 チップと Inf2 インスタンスをリリースしました。

Inf2 インスタンスは、最大 2.3 ペタフロップスの DL パフォーマンスと、9.8 TB/秒の帯域幅で最大 384 GB の総アクセラレータ メモリを提供します。Amazon Cloud Technology Neuron SDK は、PyTorch や TensorFlow などの一般的な機械学習フレームワークとネイティブに統合されています。したがって、ユーザーは既存のフレームワークとアプリケーション コードを引き続き使用して Inf2 に展開できます。開発者は、AWS Deep Learning AMI、AWS Deep Learning コンテナ、または Amazon ECS、Amazon EKS、Amazon SageMaker などのマネージド サービスで Inf2 インスタンスを使用できます。

39c7820f37464a50923ab85bdec819b6.png

 

Amazon EC2 Inf2 インスタンスの中核となるのは Amazon Cloud Technology Inferentia2 デバイスであり、それぞれに 2 つの NeuronCores-v2 が含まれています。各 NeuronCore-v2 は、Tensor、Vector、Scalar、GPSIMD エンジンという 4 つのメイン エンジンを備えた独立した異種コンピューティング ユニットです。テンソル エンジンは行列演算用に最適化されています。スカラー エンジンは、ReLU (修正線形単位) 関数などの要素ごとの演算用に最適化されています。ベクトル エンジンは、バッチ正規化やプーリングなどの非要素ベクトル操作用に最適化されています。

Amazon Cloud Technology Inferentia2 は、FP32、TF32、BF16、FP16、UINT8 などの複数のデータ型をサポートしているため、ユーザーはワークロードに基づいて最適なデータ型を選択できます。また、新しい構成可能な FP8 (cFP8) データ型もサポートしています。これは、モデルのメモリ フットプリントと I/O 要件を削減するため、大規模モデルに特に適しています。

Amazon Cloud Technology Inferentia2 には、動的実行をサポートする汎用デジタル信号プロセッサ (DSP) が組み込まれているため、ホスト上で制御フロー演算子を拡張したり実行したりする必要はありません。Amazon Cloud Technology Inferentia2 は、動的入力形状もサポートしています。これは、入力テンソル サイズが不明なモデル (テキストを処理するモデルなど) にとって重要です。

Amazon Cloud Technology Inferentia2 は、C++ で記述されたカスタム演算子をサポートしています。Neuron Custom C++Operators を使用すると、ユーザーは NeuronCore でネイティブに実行される C++ カスタム オペレーターを作成できます。CPU カスタム オペレーターを Neuron に移行し、標準の PyTorch カスタム オペレーター プログラミング インターフェイスを使用して新しい実験オペレーターを実装します。これらはすべて、NeuronCore ハードウェアに関する深い知識を必要としません。

Inf2 インスタンスは、チップ間の直接の超高速接続 (NeuronLink v2) を介した分散推論をサポートする、Amazon EC2 上の最初の推論に最適化されたインスタンスです。NeuronLink v2 は、all-reduce などの集合通信演算子を使用して、すべてのチップにわたって高性能の推論パイプラインを実行します。

 

ニューロンSDK

Amazon Neuron は、Amazon Inferentia および Trainium で実行される複雑なニューラル ネットワーク モデルのパフォーマンスを最適化する SDK です。Amazon Cloud Neuron には、TensorFlow や PyTorch などの一般的なフレームワークとネイティブに統合されたディープ ラーニング コンパイラー、ランタイム、ツールが含まれており、顧客が高パフォーマンスとコストですぐに実行を開始できるように、Amazon Cloud Deep Learning AMI と Deep Learning Containers にプレインストールされています。 -効果的な推論。

Neuron コンパイラーは、複数の形式 (TensorFlow、PyTorch、XLA HLO) の機械学習モデルを受け入れ、Neuron デバイス上で実行できるようにそれらを最適化します。Neuron コンパイラーは機械学習フレームワーク内で呼び出され、モデルは Neuron Framework プラグインによってコンパイラーに送信されます。結果として得られるコンパイラ アーティファクトは NEFF ファイル (Neuron Executable Format) と呼ばれ、Neuron ランタイムによって Neuron デバイスにロードされます。

Neuron ランタイムは、カーネル ドライバーと、Inferentia および Trainium Neuron デバイスにアクセスするための API を提供する C/C++ ライブラリで構成されます。TensorFlow および PyTorch 用の Neuron ML フレームワーク プラグインは、Neuron ランタイムを使用して、NeuronCore にモデルをロードして実行します。Neuron ランタイムは、Neuron Executable File Format (NEFF) とも呼ばれるコンパイルされた深層学習モデルを Neuron デバイスにロードし、高スループットと低遅延向けに最適化されています。

おすすめ

転載: blog.csdn.net/m0_71839360/article/details/130722889