紙読み_GPT-4

論文情報

name_en: GPT-4 テクニカル レポート
name_ch: GPT-4 テクニカル レポート
paper_addr: https://arxiv.org/abs/2303.08774
doi: 2023-03-14
date_read: 2023-03-29
date_publish: 2023-03-14
タグ: [「深層学習」、「自然言語処理」]
作者: OpenAI

まとめ

評価済み GPT-4: 画像とテキストの入力を受け入れ、テキスト出力を生成する大規模なマルチモーダル モデル。
GPT-4 は、GPT-3 の構造を継承する Transformer ベースのモデルであり、事前トレーニング後にドキュメント内の次のトークンを予測できます。トレーニング後のアラインメント プロセスは、リアリズムと望ましい動作への順守の測定におけるパフォーマンスを向上させます。

導入

現在の大規模な言語モデルの主な目標は、特に複雑で微妙なシナリオにおいて、モデルが自然言語テキストを理解して生成する能力を向上させることです。このモデルは、評価において大多数の人間のテスターよりも優れており、この点で GPT-3.5 よりも大幅に優れています。GPT-4 によって生成されたテキストはまだあまり信頼できませんが (知識を使用して特定の問題を解決する能力を向上させます)。モデルのトレーニングでは、特にインターネット データと一部のサードパーティの著作権データを使用します。次に、人間のフィードバックを伴う強化学習 (RLHF)を使用してモデルを微調整しますこのレポートには、アーキテクチャ (モデル サイズを含む)、ハードウェア、トレーニング計算、データセットの構築、トレーニング方法などに関する詳細は含まれていません。

方法

予測スケーラビリティ

GPT-4 プロジェクトの主な焦点は、予測可能なスケーリングが可能なディープ ラーニング スタックを構築することです。複数のスケールで予測可能な動作を持つインフラストラクチャと最適化手法を開発し、計算を 1000 ~ 10000 分の 1 に削減しました。
小さなモデルを使用して、特定のパラメーターの組み合わせの下で大きなモデルの特定の能力を予測する場合、予測が十分に正確であれば、錬金術のサイクルを大幅に短縮し、試行錯誤のコストを大幅に削減できます。

予測損失

計算量とモデルの最終的な損失の間にはべき乗関係があります。GPT-4 の最終的な損失は、この方法を使用して高い精度で予測できます。

図の X 軸は GPT-4 で正規化されており、p、n、μ は測定単位の接頭語で、10 の負の 12 乗、負の 9 乗、負の 6 乗を表します。

HumanEval での機能拡張の予測

モデルの損失を予測するだけでなく、トレーニングの前にモデルの他の機能も評価する必要があります。GPT-4 は、164 のコーディングの質問で構成される HumanEval データセットを提案し、プログラミング ロジックと習熟度のさまざまな側面をテストし、それを別のパフォーマンス インジケーターとして使用し、トレーニング前に HumanEval でモデルのレベルを予測します。同様のべき乗分布も見つかりました。

モデル能力

非常に複雑な指示については、GPT-4 の理解力と創造性は 3.5 をはるかに超えています。

さまざまな試験における GPT-3.5 と GPT-4 のスコアの比較

表 2 に、一般的に使用される自然言語評価方法をいくつか示します。その中で、MMLU はほとんど最も一般的に使用される方法であり、GPT-4 のスコアは他のモデルに匹敵しません。

MMLU テストでの英語以外の他の言語のスコアも非常に高くなっています。

Figure-3 は、入力としての写真とテキストの使用も示しており、写真のユーモアを説明することで、GPT-4 が写真を解釈して推論する能力を示しています。

図 6 は、GPT-4 によって生成されたテキストの信頼性のテストを示しています。これは、chatGPT の最新バージョンよりも大幅に高くなっています。

図 8 には、事前トレーニングと強化学習後の検量線も示されていますが、強化学習後の分布が元の分布と一致しなくなっていることがわかります。

おすすめ

転載: blog.csdn.net/xieyan0811/article/details/130043017