爆発した!GPT-4 モデルのアーキテクチャ、トレーニング コスト、データセット情報がすべてピックアップされています。

下のカードをクリックしてCVer」公式アカウントをフォローしてください

AI/CV 重量物乾物、初めて納品

クリックして入力 —> [マルチモーダルとトランスフォーマー] 交換グループ

転載元: ハート・オブ・ザ・マシン

長い間、誰もが GPT-4 のモデル アーキテクチャ、インフラストラクチャ、トレーニング データ セット、コスト、その他の情報に非常に興味を持っていました。

しかし、OpenAI の口は厳しすぎて、長い間、誰もがこれらのデータを推測するだけでした。

少し前に、「天才ハッカー」ジョージ ホッツ (ジョージ ホッツ) は、Latent Space と呼ばれる AI テクノロジー ポッドキャストのインタビューでゴシップを明らかにし、GPT-4 は 8 つの混合エキスパート モデルで構成される統合システムであり、各エキスパート モデルには 220 のエキスパート モデルがあると述べました。 10 億のパラメータ (GPT-3 の 1,750 億のパラメータよりわずかに多い) があり、これらのモデルはさまざまなデータとタスクの分布でトレーニングされます。

このニュースは検証できませんが、人気は非常に高く、一部の業界関係者の間では非常に合理的であると考えられています。

最近、さらに多くのニュースが流出しているようです。

本日、SemiAnalysis は、GPT-4 に関する詳細情報を「明らかに」する有料サブスクリプション コンテンツをリリースしました。

97d2ba53954de29cf436a1aced813983.png

記事によると、モデル アーキテクチャ、トレーニング インフラストラクチャ、推論インフラストラクチャ、パラメータ ボリューム、トレーニング データ セット構成、トークン ボリューム、レイヤー数、並列戦略、マルチモーダル ビジョン適応など、多くのソースから GPT-4 に関する多くの情報を収集したとのことです。 、さまざまなエンジニアリングのトレードオフの背後にある思考プロセス、独自の実装テクニック、巨大なモデルの推論に関連するボトルネックを軽減する方法など。

著者らによると、GPT-4 の最も興味深い点は、OpenAI が特定のアーキテクチャ上の決定を行った理由を理解することです。

さらに、この記事では、A100 での GPT-4 のトレーニングと推論のコスト、および次世代モデル アーキテクチャ H100 への拡張方法についても紹介しています。

Deep Trading (アルゴリズム取引会社) の創設者である Yam Peleg 氏のツイート (現在は削除されています) に基づいて、GPT-4 に関する以下のデータ情報をまとめました。興味のある読者は注意深く研究してください。

b6cfef2e6e5dfcc31d1ac32dd1e76316.png

ただし、これは公式に確認されたデータではないことに注意してください。その正確性はご自身で判断してください。

d2f6b238ad3942d015b198726c53231f.png

1.パラメータの量: GPT-4 のサイズは GPT-3 の 10 倍以上です。この記事では、120 層のネットワーク内の合計 1 兆 8,000 億のパラメータを考慮しています。

2.それは確かに混合エキスパート モデルですOpenAI は、専門家混合 (MoE) モデルを使用することでコストを合理的に抑えることができました。彼らはモデルに 16 のエキスパート モデルを使用し、各エキスパート モデルには約 111B のパラメーターがあります。これらのエキスパート モデルのうち 2 つが各フォワード パスにルーティングされます。

3. MoE ルーティング: 各トークンのルーティング先となるエキスパート モデルを選択するための高度なルーティング アルゴリズムについては文献で多くの議論がありますが、OpenAI は現在の GPT-4 モデルでかなり単純なルーティング アプローチを採用していると言われています。このモデルは、注意の計算に約 550 億の共有パラメーターを使用します。

b8f9944f4ad9f7c8113fc42630a02151.png

4.推論: 各フォワード パスの推論 (1 つのトークンの生成) では、約 2,800 億のパラメーターと約 560 TFLOP の計算のみが使用されます。対照的に、純粋な密モデルでは、フォワード パスごとに約 1.8 兆のパラメーターと約 3700 TFLOP の計算が必要です。

5.データセット: GPT-4 のトレーニング データセットには、約 13 兆個のトークンが含まれています。これらのトークンは繰り返し計算された結果であり、複数のエポックからのトークンがカウントされます。

エポック数: トレーニングは、テキストベースのデータでは 2 エポック、コードベースのデータでは 4 エポックで実行されました。さらに、ScaleAI および内部からの命令微調整データが数百万行あります。

6. GPT-4 32K : 事前トレーニング段階では、GPT-4 は 8k のコンテキスト長 (seqlen) を使用します。GPT-4 の 32k 系列長バージョンは、事前トレーニング後に 8k バージョンを微調整することで取得されます。

3320a8e8c180c2166e4cf20dc071c1f5.png

7.バッチ サイズ: コンピューティング クラスターでは、バッチ サイズは数日で徐々に増加し、最終的に OpenAI はバッチ サイズを使用して 6,000 万に達しました。もちろん、すべてのエキスパート モデルがすべてのトークンを参照できるわけではないため、これはエキスパート モデルあたり 750 万トークンのバッチ サイズにすぎません。

実際のバッチ サイズ: この数値をシーケンスの長さ (seq len) で割ると、実際のバッチ サイズが得られます。このような誤解を招く数字の使用はやめてください。

8.並列戦略: すべての A100 GPU で並列コンピューティングを実行するために、8 ウェイ テンソル並列処理が採用されました。これは NVLink の制限だからです。さらに、15本の並列パイプラインも採用した。(おそらく ZeRo Stage 1 が使用され、ブロックレベルの FSDP が使用された可能性があります)。

3fb1f783ec4a6345d3110fa5baa85e81.png

9.トレーニングコスト: OpenAI は GPT-4 のトレーニングで約 2.15e25 FLOPS を使用し、約 25,000 個の A100 GPU を使用し、90 ~ 100 日間トレーニングし、使用率 (MFU) は約 32% ~ 36% でした。この極端に低い使用率は、チェックポイントの再起動を必要とする障害の数が多いことが部分的に原因です。

クラウド内の A100 GPU あたり 1 時間あたり約 1 ドルの費用がかかるとすると、このトレーニング セッションだけで約 6,300 万ドルの費用がかかることになります。(現在、約 8,192 個の H100 GPU を使用した事前トレーニングは、H100 GPU あたり 1 時間あたり 2 ドルで請求され、2,150 万ドルのコストで約 55 日に短縮されます。)

10.エキスパート混合モデルを使用する場合のトレードオフ: エキスパート混合モデルを使用する場合は、多くの側面でトレードオフが発生します。

たとえば、トークン生成のたびにモデルのすべての部分が利用されるわけではないため、推論中に MoE を扱うことは非常に困難です。これは、一部の部品が使用されている間、他の部品はアイドル状態である可能性があることを意味します。これは、ユーザーにサービスを提供する際のリソース使用率に重大な影響を与える可能性があります。研究者らは、64 ~ 128 人のエキスパートを使用すると、16 人のエキスパートを使用するよりも損失を改善できることを示しましたが、これは研究の結果にすぎません。

少数のエキスパート モデルを選択する理由はいくつかあります。OpenAI が 16 個のエキスパート モデルを選択した理由の 1 つは、多くのタスクにおいてエキスパート モデルが増えると一般化が難しく、おそらく収束が難しくなるからです。

このような大規模なトレーニングのため、OpenAI はエキスパート モデルの数をより控えめにすることを選択しました。

aa845a23a04383322510f509a242232e.png

11.推論コスト: GPT-4 の推論コストは、1,750 億個のパラメータを持つ Davinci モデルの 3 倍です。これは主に、GPT-4 では大規模なクラスターが必要であり、使用率がはるかに低いためです。

GPT-4 の 8k バージョンでの推論コストは、推論に 128 個の A100 GPU を使用した場合、1,000 トークンあたり 0.0049 セントと推定されます。推論に 128 個の H100 GPU を使用する場合、同じ 8k バージョンの GPT-4 推論のコストは 1,000 トークンあたり 0.0021 セントです。これらの推定値は高い使用率を前提としており、バッチ サイズが大きく保たれていることは注目に値します。

12.マルチクエリ アテンション: OpenAI は、他の機関と同様にマルチクエリ アテンション (MQA) も使用しています。MQA を使用すると必要なアテンション ヘッドは 1 つだけなので、KV キャッシュのメモリ容量を大幅に削減できます。それでも、シーケンス長 32k の GPT-4 は 40GB A100 GPU では確実に実行できず、シーケンス長 8k のモデルは最大バッチ サイズによって制限されます。

9c5eeeaaff45a7ede4bc8241894f98c8.png

13.連続バッチ処理: OpenAI は可変バッチ サイズと連続バッチ処理を実装します。これは、ある程度の最大レイテンシーを許容し、推論コストを最適化するために行われます。

14. Visual Multimodal : テキスト エンコーダから独立したビジュアル エンコーダであり、テキスト エンコーダとテキスト エンコーダの間で相互注意が行われます。アーキテクチャはFlamingoに似ています。これにより、GPT-4 の 1 兆 8,000 億のパラメータにさらに多くのパラメータが追加されます。プレーンテキストで事前トレーニングした後、さらに約 2 兆個のトークンで微調整されました。

OpenAI はビジョン モデルについて、当初はゼロからトレーニングしたいと考えていましたが、まだ成熟していないため、リスクを軽減するためにまずテキストからトレーニングを開始することにしました。

このビジョン機能の主な目的の 1 つは、自律エージェントが Web ページを読み取り、画像やビデオからコンテンツを転写できるようにすることです。

彼らがトレーニングしたデータの一部は、結合データ (レンダリングされた LaTeX/テキストを含む)、Web ページのスクリーンショット、YouTube ビデオ (サンプル フレーム) であり、それを Whisper で実行して文字起こしされたテキストを取得しました。

ff8c35632de826e90f45db59eb66ce0f.png

15.投機的デコード: OpenAI は GPT-4 の推論プロセスで投機的デコード技術を使用した可能性があります (100% かどうかはわかりません)。このアプローチは、より小型で高速なモデルを使用して複数のトークンを事前にデコードし、それらを単一のバッチとして大規模な予測モデル (オラクル モデル) にフィードすることです。

小規模モデルの予測が正しければ、大規模モデルも一致し、単一のバッチで複数のトークンをデコードできます。

ただし、大規模モデルがドラフト モデルによって予測されたトークンを拒否した場合、バッチの残りは破棄され、大規模モデルを使用してデコードを続行します。

一部の陰謀論は、新しい GPT-4 の品質が低下しているという事実を指摘していますが、これは単に、投機的復号モデルがより低い確率でシーケンスを予測モデルに渡すことによる誤った解釈の結果である可能性があります。

473bb8a7474eecac23eed41d44b965a6.png

16.推論アーキテクチャ: 推論は 128 個の GPU で構成されるクラスター上で実行されます。このようなクラスターは、異なる場所にある複数のデータセンターに複数存在します。推論プロセスでは、8 方向のテンソル並列処理と 16 方向のパイプライン並列処理が使用されます。8 つの GPU で構成される各ノードには、約 1,300 億のパラメータしかありません。

モデルには 120 のレイヤーがあるため、15 の異なるノードに適合します。おそらく、最初のノードは埋め込みを計算する必要があるため、レイヤーの数が少なくなります。

これらの数値に基づいて、OpenAI がチンチラに最適なメトリックに基づいてトレーニングしようとしている場合、現在の 2 倍のトークンを使用する必要があります。これは、高品質のデータを取得することが困難であることを示唆しています。

最後に言いたいのは、これは GPT-4 に関してこれまでに明らかになった最も詳細なデータであるということです。それが真実かどうかを検証することはまだ不可能ですが、研究する価値はあります。元の著者が述べたように、「興味深い点は、OpenAI が特定のアーキテクチャ上の決定を下す理由を理解することです。

GPT-4 のアーキテクチャ情報についてどう思いますか?

詳細については、原文を参照してください: https://www.semianaracy.com/p/gpt-4-architecture-infrastructor

クリックして入力 —> [マルチモーダルとトランスフォーマー] 交換グループ

最新の CVPR 2023 論文とコードのダウンロード

 
  

バックグラウンド返信: CVPR2023、 CVPR 2023 論文のコレクションとオープンソース論文のコードをダウンロードできます。

バックグラウンド返信: Transformer レビュー、最新の 3 つの Transformer レビュー PDF をダウンロードできます

多模态和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-多模态或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理するのは簡単ではありません、いいねして見てくださいcd06c7cde325f190bde6734fe30613df.gif

おすすめ

転載: blog.csdn.net/amusi1994/article/details/131693304