Amazon クラウド テクノロジーは Inf2 インスタンスを使用して GPT-J-6B モデルを実行します

2019 年の Amazon Cloud Technology re:Invent で、Amazon Cloud Technology は、Inferentia チップと Inf1 インスタンスという 2 つのインフラストラクチャをリリースしました。Inferentia は、Amazon Cloud Technology によってカスタム設計された高性能機械学習推論チップであり、その目的は、コスト効率の高い大規模な低レイテンシー予測を提供することです。4 年後の 2023 年 4 月、Amazon Cloud Technology は、大規模なモデル推論に技術サポートを提供することを目的として、Inferentia2 チップと Inf2 インスタンスをリリースしました。

a9bd73ffac1745ecab58552bb4ce2294.png

 

Inf2 インスタンスのアプリケーション シナリオ

Amazon Cloud Technology Inf2 インスタンスを使用して、テキスト要約、コード生成、ビデオと画像の生成、音声認識、パーソナライゼーションなどの一般的なアプリケーションを実行します。Inf2 インスタンスは、Amazon EC2 の最初の推論に最適化されたインスタンスであり、高速ノンブロッキング相互接続である NeuronLink を活用したスケールアウト分散推論を導入しています。数千億のパラメータを持つモデルを、Inf2 インスタンス上の複数のアクセラレータに効率的にデプロイできるようになりました。Inf2 インスタンスは、他の同様の Amazon EC2 インスタンスと比べて、スループットが 3 倍高く、レイテンシが 8 倍低く、価格/パフォーマンスが 40% 優れています。持続可能性の目標を達成するために、Inf2 インスタンスは、他の同様の Amazon EC2 インスタンスと比較して、ワットあたりのパフォーマンスが 50% 向上しています。

 

Inf2 インスタンスを使用して GPT-J-6B モデルを実行する

GPT-J-6B は、EleutherAI と呼ばれる研究者グループによって作成されたオープンソースの自己回帰言語モデルです。これは、OpenAI の GPT-3 の最も高度な代替手段の 1 つであり、チャット、要約、質問応答などの幅広い自然言語タスクで適切に実行されます。

モデルは 28 層で構成され、モデル次元は 4096、フィードフォワード次元は 16384 です。モデルの寸法は 16 個のヘッドに分割されており、各ヘッドの寸法は 256 です。回転位置埋め込み (RoPE) が 64 次元の各ヘッドに適用されます。モデルは、GPT-2/GPT-3 と同じ BPE セットを使用して、50257 のトークン化された語彙でトレーニングされます。

ハイパーパラメータ

価値

n_パラメータ

6,053,381,344

n_layers

28*

d_model

4,096

d_ff

16,384

n_heads

16

d_head

256

n_ctx

2,048

n_vocab

50,257 (GPT-2/3 と同じトークナイザー)

GPT-J-6B インフラストラクチャには 60 億のパラメーターがあり、大規模言語モデル (LLM) 学習やテキスト生成テストの入門バージョンに最適です。デプロイメント中に、Neuron SDK とtransformers-neuronx が使用されます。transformers-neuronx は、AWS Neuron SDK を使用したトランスフォーマー デコーダー推論ワークフローの実行を支援するために、AWS Neuron チームによって構築されたオープンソース ライブラリです。現在、GPT2、GPT-J、および OPT モデル タイプのデモ スクリプトが提供されています。これらのフォワード関数は、コード分析と最適化のためにコンパイル中に再実装され、同じライブラリに基づいて他のモデル アーキテクチャを実装できます。AWS Neuron に最適化されたコンバーター/デコーダー クラスは、PyHLO と呼ばれる構文を使用して XLA HLO (Advanced Operations) で再実装されました。このライブラリは、複数の NeuronCore にわたってモデルの重みをシャーディングするための Tensor Parallelism も実装しています。

おすすめ

転載: blog.csdn.net/m0_66395609/article/details/130722901