【GPT-4理論-1】GPT-4の中核技術を探る | JD Cloud技術チーム

序文

GPT-4は以前からリリースされていましたが、セキュリティなどのさまざまな理由から、OpenAIはGPT-4の技術詳細やコードを公開せず、100ページにわたる技術レポートのみを提供しました [1] 。

この技術レポートは GPT-4 の長所に焦点を当てており、いくつかの技術的方向性の概要のみを示しており、技術的な詳細を理解したい人にとっては十分ではありません。

この記事では、GPT-4 の技術レポート、GPT 3.5/ChatGPT と比較した GPT-4 の改善、GPT-4 と ChatGPT の比較、OpenAI の最近の取り組み、大規模言語モデル (Large Language) を組み合わせます。モデル、LLM) モデル GPT-4 の科学研究の進捗状況、マルチモーダル モデルの科学研究の進捗状況およびその他の情報、GPT-4 の技術的詳細の詳細な分析。

GPT-4 がこれを行うという明確な証拠はないため、ここでは主に、OpenAI が GPT-4 のこれらの機能を実現するためにどのようなテクノロジを使用できるかについて説明します。したがって、私の推測が間違っている場合は、読者の皆さんはコメント欄で議論してください。次に、シャーロック ホームズになって、GPT-4 の背後にある原理の分析を始めましょう。

1. GPT-4の改良

GPT-4はChatGPTをベースに反復されていますが、ChatGPTの原理についてはここでは詳しく説明しませんので、理解が必要な場合は「ChatGPT/InstructGPT詳細解説」の記事で紹介します。この記事では、まず、ChatGPT と比較して GPT-4 がどのような改善を行ったのか、つまり、ChatGPT と比較して GPT-4 がどのような機能改善を行ったのかについて説明します。次に、これらの改善を達成するために OpenAI が GPT-4 にどのようなテクノロジーを適用した可能性があるかについて説明します。最後に、他の大規模な言語モデルと GPT-4 の使用に関するいくつかの考えについて説明します。

1.1 ゼロショットおよび数ショットの学習能力

テキスト生成に GPT-4 を使用すると、GPT-4 がさまざまな難しい質問にほぼ完璧に答えることができることがわかり、嬉しい驚きを感じるでしょう。これは、GPT-4 が非常に強力な教師なし学習機能を備えていることを示しています。

さらに、GPT-4 技術レポートでは、教師なし学習の例も多数提供しており、シナリオによっては教師あり SOTA 手法に迫る、または超える場合さえあります。たとえば、HumanEval[3] のコード生成データセットでは、有名なコード生成ツール CodeX[3] をも上回ります。さらに、GPT-4 は、正しさを評価する質問応答データセット TruthfulQA [26] に関して、SOTA の Anthropic-LM [4] に近づいています。

1.2 論理的推論能力

GPT-4 の技術レポートでは、図 1 に示すように、多くの学術試験において ChatGPT よりも優れていることが強調されています。学科試験の評価は、GPT-4 が ChatGPT よりも論理的推論能力が高いことを反映しています。@越玉涛Max は GPT-4 と ChatGPT の論理的推論問題を 19 問 [2] を通して水平比較し、その中で ChatGPT の正答率は 37%、GPT-4 の正答率は 100% でした。たとえば、GPT-4 には論理的推論において質的な飛躍があることがわかります。

図 1: 多くの学科試験における GPT-4 スコアと ChatGPT スコアの比較

ここで単純な論理的推論の問題も見つけました。この橋を渡る例では、ChatGPT が橋を渡るシーケンスを与えましたが、時間の計算が間違っており、GPT-4 がこの問題を単純かつ明確に解決したことがわかります。

問題: 橋 ABCD を 4 人で渡ります。一度に橋を渡れるのは最大 2 人です。懐中電灯の光の持続時間は 17 分です。各人に必要な時間はそれぞれ 1、2、5、10 です。どのくらいの時間がかかるかを調べてください最速で橋を渡るにはどれくらいかかりますか?

ChatGPT: 4 人ができるだけ早く橋を渡るためには、最も遅い人にできるだけ早く橋を渡らせる必要があります。したがって、最も遅い 2 人 A と B に最初に橋を渡らせ、次に A を戻らせ、次に 2 番目に遅い人 C と D に橋を渡らせ、最後に B を戻らせて、渡るプロセス全体を完了します。橋。

具体的には、次の手順に従うことができます。

AさんとBさんが橋を渡るのに10分かかります。

A が戻ってきて 1 分かかります。

CとDは橋を渡ります、5分かかります。

B は 2 分かけて戻ります。

AさんとBさんが橋を渡るのに10分かかります。

したがって、合計所要時間は 10 + 1 + 5 + 2 + 10 = 28 分となります。これは、全員が橋を渡るのにかかる最速の時間です。

GPT-4 : ABCD の 4 人全員にできるだけ早く橋を渡らせるには、次の戦略を採用できます。

A と B は 2 分以内に一緒に橋を渡ります。

A が戻ってきて 1 分かかります。

C と D は一緒に橋を渡ります。所要時間は 10 分です。

B は 2 分かけて戻ります。

A と B は 2 分以内に一緒に橋を渡ります。

合計時間: 2 + 1 + 10 + 2 + 2 = 17 分。

つまり、全員を最短 17 分で橋を渡らせることができます。

1.3 図を理解する能力

GPT-4 の主な改良点は、マルチモダリティの関与を開始することですが、GPT-4 の画像インターフェイスはまだオープンされていないため、ここでは GPT-4 の技術レポートに記載されている例を借用します。図2では、GPT-4はVGAポートとLightningポートの不一致を正確に把握できます。この例は、GPT-4 が画像内の内容を単純に理解するだけでなく、その最も強力な点が画像内の特別な点を認識できることを示しています。

図 2: GPT-4 には強力なグラフと表の理解機能があります

1.4 より安全なテキスト生成機能

GPT-4 の技術レポートは、以前のモデルと同じセキュリティ問題に焦点を当てていますが、GPT-4 のセキュリティは大幅に向上しています。技術レポートによると、ChatGPT は GPT-4 よりも有害なコンテンツを生成する可能性が約 10 倍高いとのことです。図 3 は、リスク プロンプトを含む初期 GPT-4 および成熟 GPT-4 によって生成された多数のコンテンツを例示しています。成熟 GPT-4 のリスクが大幅に低減されていることがわかりますが、これは GPT-4 が危険であることを意味するものではありません。完全に無害な悪いモデル。

図 3: 生成されたコンテンツのセキュリティに関する初期の GPT-4 と成熟した GPT-4 の例

GPT-4 は、モデルの安全性を確保するために多くの作業を行っています。まず、さまざまな方向から 50 人以上のドメイン専門家を雇用して、対決テストとレッド チーム テストを実施しました。次に、ルールベースの報酬モデルをトレーニングしました (ルール-Based Reward Models (RBRM)) は、モデルのトレーニングを支援します。この部分の実装の詳細については、後ほど詳しく説明します。

1.5 より強力なプログラミング能力

GPT-4 の技術レポートにおけるもう 1 つの重要な比較項目は、LeetCode 上の ChatGPT とのコード生成能力 (易、中、難) です。教師なしの場合、HumanEval データセット上の GPT-4 の評価精度は、ChatGPT の 48.1% から 67.0% に向上しました。GPT-4の技術レポートは、LeetCodeの166のプログラミング質問のうち、ChatGPTは20しか答えなかったのに対し、GPT-4は55の質問に正しく答えたと指摘した。表 1 は、LeetCode の 166 のプログラミング質問における GPT-4 と ChatGPT の具体的な分布です。

GPT-4 GPT-4 (視力なし) チャットGPT
LeetCode(簡単) 31 / 41 31 / 41 12/41
リートコード(中) 21 / 80 21 / 80 8/80
LeetCode(ハード) 3/45 3/45 0 / 45

表 1: LeetCode プログラミングの質問に対する GPT-4 および ChatGPT のパフォーマンス

1.6 他言語を扱う能力

GPT-4 は英語と英語以外の両方で大幅に改善されており、ほとんどの言語で英語の ChatGPT のパフォーマンスを上回っています。ここでは、ChatGPT と GPT-4 が「Let the Bullets Fly」で Tang 氏に応答できるようにします。詩のリクエストは、「風があるに違いない、肉があるに違いない、鍋があるに違いない、霧があるに違いない、美しい女性がいるに違いない、ロバがいるに違いない!」です。2 つの詩を比較すると、ChatGPT はあまり文才のない現代詩のように見えますが、GPT-4 によって生成されたコンテンツは、最初の 2 か所の単語数が多すぎることを除けば基本的に古代中国の詩のようであり、さらにはある程度の韻を踏む。

チャットGPT:

丘の上には風が吹き、肉の匂いが溢れ
、鍋は湯気を立て、霧は立ち込め、美しい
女性はたおやかで愛嬌があり、ロバは楽しそうに駆け回る
、ユニークな絵巻です。人々を爽やかな気分にさせます。人々は唾液を垂らし、霧が空気に満ちて人々を神秘的に感じさせ、美しい顔は人々を酔わせ、ロバの陽気さは人々に生命の活力を感じさせ、これは人々を魅了する生命力に満ちた絵です





GPT-4:

渓流を吹き渡る風に、
鍋しゃぶしゃぶが最高のアクセントになります。
料理の煙が霧の中で立ち込め、
美女とロバが一緒に泳ぎます。

美しい女性はロバの背中を軽く撫で、
不安も世間も吹き飛ばす。
ルージュと戯れ、笑顔で酔って、
ロバは歌いながら山の外へ急いでいきます。

真っ赤なキノコを温め、
チリビーフを水で煮ます。
おしどり鍋は歌い、笑い、
時は流れ、夢の中に留まる。

霧が塵の運命を洗い流し、
コイアのレインコートとチャイフェイは危険にさらされます。
ロバの蹄は世の風習を打ち砕き、
フェイホンの蹄跡は栄光を残す。

1.7 より長いシーケンスを処理する機能

ChatGPT が処理できる最大のシーケンスは 4K トークンですが、OpenAI は 8k と 32k の 2 つのモデルをオープンしており、各漢字は約 2 ~ 2.5 トークンを占めます。GPT-4 のトークンの価格は指示と応答に従って設定されます (表 2)。32k の価格は 8k の 2 倍であり、ChatGPT の 1000 トークンあたり 0.02 ドルと比較すると、GPT-4 は約 15 倍高価です。

モデル 促す 完了
8Kコンテキスト $0.03 / 1,000 トークン $0.06 / 1,000 トークン
32K コンテキスト $0.06 / 1,000 トークン $0.12 / 1,000 トークン

表 2: GPT-4 の料金の詳細

GPT-4 のさらなる機能の検出については、Microsoft Redmond Research の機械学習理論グループの責任者である Sébastien Bubeck による最新の 155 ページの記事 [25] で詳しく説明されています。

彼らは、GPT-4 がテキスト生成モデルの理論上のパフォーマンスをはるかに超えていることを示し、汎用人工知能 (AGI) の火に点火する火花となったと指摘しました。GPT-4 はすでに非常に強力な推論、計画、および問題を備えています-解決、抽象的思考、複雑なアイデアの理解、迅速な学習、経験から学ぶ能力。


2. GPT-4技術的解決策の推測

私たちが発見した GPT のこれらの改善により、LLM の現在の進歩と OpenAI の取り組みを組み合わせて、GPT-4 の可能な技術的ソリューションを推測することができます。推測するには公開されたアルゴリズムのみに頼ることができるため、OpenAI が未公開のアルゴリズムを解決策として使用する可能性は排除されません。そのため、私の推測が間違っていたとしても、いくつかの独立したアルゴリズムを学習していると考えることができます。

  1. ゼロショットおよび少数ショットの学習能力: この改善の理論的根拠は、大規模モデルの創発能力 (創発能力) によるものと考えられます [5]。
  2. 論理的推論能力:大型モデルの思考連鎖(Chain of Thought、CoT)[6]と自己改善能力(Self-improvability)[7]を利用。
  3. 画像を理解する能力: OpenAI の有名なマルチモーダル モデル CLIP[8] または Microsoft のマルチモーダル モデル KOSMOS-1[12] を利用していると推測されます。
  4. より安全なテキスト生成機能: 技術レポートのこの部分では、主に専門家によるテスト、幻覚検出、RBRM についてさらに紹介します。
  5. より強力なプログラミング能力: この部分は OpenAI の有名なコード生成モデルである CodeX を利用していると推測されます。
  6. 他の言語を処理する能力: XLM [9] などの言語間事前トレーニング モデルのアイデアを借用している可能性があるか、または創発的な能力が他の言語での GPT-4 のパフォーマンスを強化するためであると推測されます。
  7. より長いシーケンスを処理する機能: この部分では、長い入力を処理するモデル Transformer-XL [10] または長いデータの複雑さを軽減できる OpenAI によって提案された Sparse Transformer [11] が使用されていると推測されます。

以下に、私たちの推測の基礎と、これらの推測の手法について簡単に紹介します。

2.1 緊急機能

創発的能力は、LLM がブレークスルーを実現するための最も重要なコア テクノロジーです。創発的能力とは、トレーニング プロセス中にいくつかの高度で複雑な機能や動作を自動的に学習するモデルを指します。これらの機能や動作は、直接エンコードまたは指定されません。

この機能により、モデルの再トレーニングや変更を行わずに新しい機能や動作を適応的に学習できるため、新しい未知のタスクを処理するときにモデルのパフォーマンスが向上します。図 4 は、GPT-3 を含む多くの LLM が非常に強力な創発能力を示していることを示しています。つまり、モデルのパラメーターが特定の指標を突破すると、パフォーマンスが急速に向上します。ここで、GPT-4 のゼロショット学習機能と少数ショット学習機能は大規模モデルの創発機能に由来すると結論付けることができます。

モデルの新たな能力は主に次の 4 つの点に依存します。

  • モデル内のパラメータの数が多い。
  • モデルのアーキテクチャ。
  • 高品質のトレーニング データ。
  • より高度なトレーニング戦略。

その中で、モデルのパラメータ量が最も重要な要素となります。

図 4: GPT-3 などの多くの大規模モデルは、複数のタスクに対する新しい機能を実証しています

2.1.1 モデルパラメータの量

GPT-4 のパラメータ量についてはよく議論されていますが、GPT-4 が ChatGPT よりも強力であり、さらに画像符号化モジュールが追加されていることを考慮すると、GPT-4 のパラメータ量は ChatGPT よりも小さくなるはずがありません。図 5 は、ChatGPT Turbo と ARK Invest の GPT-4 統計の各トークンの予測時間を示しています。GPT-4 の時間は ChatGPT の約 4 倍です。また、GPT-4 はモデルの推論速度を高速化するためにいくつかの戦略を使用する可能性が高いため、GPT-4 のテキスト モデル パラメーター部分は約 1,000 億レベルですが、数兆レベルに非常に近くなります。

OpenAI の論文によれば、GPT-4 が画像エンコードに CLIP を使用している場合、現在の最大の画像エンコーダは 64 倍に拡大された残差ネットワークであるため、GPT-4 の画像エンコードは約 16 億になります。もちろん、GPT-4 が他の画像コーディング構造を使用している可能性を排除することはできません。たとえば、同じく Transformer を使用する KOSMOS-1[12] が良い選択です。その場合、画像部分のパラメータは、より関連性の高いものになるまで待つしかありません。開示する内容です。

図 5: ARK Invest の統計による各トークンの予測における ChatGPT と GPT-4 の割合

2.1.2 モデルのアーキテクチャ

確かなことは、GPT-4のテクニカルレポートでは、GPT-4はTransformerベースのアーキテクチャを採用している、つまりコアアーキテクチャはGPTシリーズのDecoder-only構造をそのまま採用していると指摘していることです。GPT-4 モデルの内部詳細については、まだ多くの点が確認できていませんが、GPT-4 の速度と長文の処理能力を考慮すると、その内部構造には次の 2 つの可能性があります。

  1. GPT-4 は長いテキストの能力を大幅に向上させるため、GPT-4 では一定の確率で Transformer-XL または Sparse Transformer を使用します。
  2. GPT-4 は ChatGPT に基づいて反復される可能性が高いため、依然として元の Transformer を使用し、層の数、ヘッドの数、および隠れ層ノードの数が増加する可能性があります。

GPT-4 は画像入力もサポートしているため、画像エンコードに関する部分が必要になります。これについてはセクション 2.3 で詳しく説明します。

2.1.3 トレーニング戦略とトレーニングデータ

GPT-4 は基本的に ChatGPT と同じトレーニング戦略を維持します。つまり、図 6 に示すように、基本的に事前トレーニング + プロンプト + 予測のパラダイムに従います。ここでは主に GPT-4 の改良点を紹介します。主なポイントは 3 つあります。

  • ルールベースの報酬モデル (ルールベースの報酬モデル、RBRM) を導入しました。
  • マルチモーダルヒント学習を導入しました。
  • 思考の連鎖が紹介されます。

図 6: ChatGPT のモデル トレーニング ステップ

1.RBRM

GPT-4 の最初の改良点は、RBRM の導入です。RBRM は、ルールに従って記述された 4 つのカテゴリ モデルです。その 4 つのカテゴリは次のとおりです。

  • 望ましいパターンの拒否。
  • 予期しないスタイルの拒否。
  • 許可されないコンテンツが含まれている。
  • 安全で拒否されない応答。

GPT-4 は、図 6 のステップ 3 の PPO ステージで使用されました。モデルのセキュリティを向上させるために、ChatGPT はステップ 3 でヒューマン フィードバックによる強化学習 (RLHF) を使用してモデルをトレーニングします。ChatGPT データのこの部分は GPT-3 API ユーザーから取得されており、GPT-4 では、正しい報酬に基づくモデル トレーニングを通じて有害なリクエストの生成を拒否し、無害なリクエストを拒否しないことを目的として、ここに RBRM が追加されています。

ルールを使用して NLP モデルを構築することには長い歴史があり、実際、NLP の最も初期のモデルはルールベースのモデルで、次に確率ベースのモデル、ニューラル ネットワーク ベースのモデルが続きました。

たとえば、シャノンは離散マルコフ過程の確率モデルを使用して言語のオートマトンを記述しました。また、私たちがよく使用する正規表現は、典型的なルールベースのテキスト モデルです。ルールベースのモデルの利点は、トレーニング データが必要ないことですが、欠点は、多くの場合、ドメインの専門家がルールを設計する必要があり、多くの場合、特定の分野の問題しか解決できないことです。ここで私が推測するのは、RBRM はドメインの専門家によって設計され、正規表現や有限状態マシンなどの一連のテキスト ルールによって記述されたゼロサンプル分類子であるということです。

ルールベースの強化学習も近年広く言及されていますが、強化学習の重要な最適化目標は探索空間の範囲を縮小することであり、この作業はルールの制約の下でのみ行うことができます。ルールによって制約された後、強化学習を通じて残りの空間を探索します。これにより、強化学習の探索空間が削減され、収束速度が効果的に向上します。GPT-4 の RBRM の動作原理を図 7 に大まかに示します。

図 7: RBRM の仕組み

2. マルチモーダルな即時学習

GPT-4 はマルチモーダル機能の技術的な詳細を詳しく説明しておらず、そのグラフィック インターフェイスはパブリック ベータ版として公開されていません。しかし、マルチモーダル分野における GPT-4 のレポートに同様の研究があるかどうかを確認できます。偶然にも、今年の初めに Microsoft が発表した KOSMOS-1[12] は非常に強力なマルチモーダル QA 機能を備えており、その考え方は GPT-4 と非常に似ており、GPT-4 は KOSMOS-1 を使用していると推測できます。マルチモーダル プロンプトに対する同様のアプローチ。

KOSMOS-1はテキスト生成、画像説明(画像キャプション)生成、マルチモーダルQAの3種類のデータセットをサポートしており、画像説明生成とQA生成におけるKOSMOS-1の例を図8に示します。図 8.(a) の画像記述生成では、モデルの入力は画像の埋め込みであり、出力は予測された画像記述です。図 8.(b) のマルチモーダル QA では、KOSMOS-1 は画像埋め込みとテキスト埋め込みの両方を入力として受け取り、それらを使用して質問に対する回答を予測します。

図 8: KOSMOS-1 のマルチモーダル入力の例

3. 思考の連鎖

GPT-4 は ChatGPT よりも論理的推論能力が大幅に優れており、モデルをトレーニングする際には、思考連鎖の方法を使用してプロンプト サンプルを構築する必要があります。Thinking Chain はプレーンテキスト入力だけでなく、グラフィックやテキストのマルチモーダル入力にも対応しており、この重要な内容をセクションを使って紹介します。

4. 能力予測

特定のタスクでモデルをトレーニングするときは、このタスクでのモデルの最終的なパフォーマンス、つまりモデルの能力予測 (能力予測) を予測できるようにしたいと考えています。自然言語処理および大規模言語モデルの分野では、能力予測とは通常、特定のタスク、ドメイン、またはシーンにおけるモデルのパフォーマンス能力を予測および評価することを指します。

能力予測の目的は、モデルを最適化、調整、または改善するために、モデルのパフォーマンスをより深く理解することです。モデルの能力予測を通じて、モデルの長所と限界をより深く理解することができ、モデルのさらなる開発と改善のための貴重なフィードバックを提供できます。GPT-4 はトレーニング中に能力予測も使用するため、モデルの効果をより正確に評価でき、トレーニング コストを節約できます。

2.2 論理的推論能力

GPT-4の推論能力を向上させるために、OpenAIは近年LLMの非常に重要な思考連鎖と自己改善能力を利用することになると考えられます。これらは、論理的推論能力の観点からヒント学習をターゲットに最適化したものとみなすことができ、以下で個別に紹介します。GPT-4 技術レポートから、多くの GPT-4 トレーニングで思考の連鎖や自己改善の証拠が使用されていることがわかります。

2.2.1 思考の連鎖

思考連鎖とは、人々が考えているときに特定の視点、アイデア、または知覚された刺激によって引き起こされる一連の関連する思考の連想と連想を指します。これらの関連付けは、人々の記憶、経験、知識、感情、意識などを通じて確立および強化され、最終的には有機的な思考の連鎖を形成して、人々が問題を理解し、解決し、決定を下し、行動を起こすのを助けます。思考の連鎖は人間の思考活動の重要な部分であり、人々の考え方、思考習慣、思考効率を反映します。思考の連鎖を構築および強化することで、人々が物事の性質や法則をよりよく理解して把握し、問題を解決し、より効果的に意思決定を行うのに役立ちます。

人工知能の分野では、研究者は機械学習や自然言語処理などのテクノロジーを使用して、人間の思考連鎖をシミュレートし、機械の思考連鎖を確立し、機械が人間の言語と行動をよりよく理解して処理できるようにし、より多くのインテリジェントなアプリケーションを実現する方法も模索しています。そしてシステム。OpenAI の論文 [6] は、思考連鎖の方向性において非常に重要な論文であり、GPT-4 で使用される可能性が高い技術的ソリューションでもあります。この記事では、思考連鎖を構築することでモデルを改善することを提案しています。迅速な推理力。思考の連鎖も創発的な能力であり、少数のサンプルを提供するだけでモデルの論理的推論能力を大幅に向上させることができます。

思考連鎖と従来のプロンプト学習の違いは、プロンプトに推論プロセスが追加され、入力、思考連鎖、出力からなる三重項が構築されることです。図 9 は、従来のプロンプトと思考連鎖プロンプトの例です。

図 9: 従来のプロンプト学習と思考チェーン プロンプト学習思考チェーンは入力に推論プロセスを与え、モデルが推論能力を学習できるようにします。

思考チェーンはマルチモーダル入力もサポートしており、GPT-4 技術レポートでも GPT-4 がマルチモーダル思考チェーンを使用していると指摘しています。図 13 の GPT-4 の例は、モデルが思考チェーンを使用してトレーニングされているため、推論を含む古典的な予測結果です。図 10 は、上海交通大学と Amazon によって最近公開されたマルチモーダル思考チェーンのフレームワークです: Multimodel-COT [14]。

2 つのステージで構成され、2 つのステージはパラメータを共有します。最初の段階では、画像とテキストをモデルにフィードして、理由、つまり思考の連鎖を生成します。第 2 段階では、生の入力と生成された理論的根拠をモデルに組み合わせて、答えを生成しました。

図 10: Multimodel-COT の推論プロセス

2.2.2 自己宣伝

2022 年に Google が公開した記事 [7] では、LLM と思考チェーンを組み合わせることで、モデルが自己改善 (Self-improvement) のために教師なしデータを使用できるようになると指摘されました。その中心的なメソッドは図 11 に示されています。 。GPT-4 はまた、ユーザーの意図に従うモデルの能力を向上させるために [7] のスキームを使用していると指摘しました。

図 11: LLM は大規模なモデルで自らを改善できる

その計算プロセスは次のとおりです。

  1. まず、思考の連鎖に基づいてプロンプトを作成します。
  2. さまざまな温度係数に従って、モデルは推論プロセスを含む複数の異なるパスを生成します。
  3. 最も正解の可能性が高い答えを選択するために投票を使用します。
  4. この正解を含むすべてのパスは、LLM の最適化に使用されます。

この方法では必ずしも正しい答えが得られるわけではないことに気づいたかもしれません。著者は実験を通じて 2 つの重要な結論を導き出します。

  1. 回答の正解率はその信頼度と高い相関関係があります。つまり、投票によって得られた回答が、生成された回答の中で最も正しい回答である可能性が高くなります。
  2. たとえ答えが間違っていたとしても、それらをトレーニング データに追加すると、モデルのトレーニングに役立ちます。

推論パスを取得した後、作成者はパスに従って次の 4 つの異なる入力データを構築しました。

  1. 標準的な思考連鎖プロンプト、つまり、(質問、思考連鎖、回答) の三項ペアの構築。
  2. 従来の即時学習、つまり質問と回答のみ。
  3. 入力は質問です。「ステップごとに考えてみましょう」プロンプトを追加して、モデルに推論のステップを予測させます。
  4. 従来の QA、つまり質問を入力して回答を予測します。

最後に、データセットを強化するために、著者はデータを拡張するための 2 つのスキームを提案します: 1 つは 2 つの質問をランダムに組み合わせて、モデルに新しい質問を生成させる方法、もう 1 つはモデルに推論ステップを生成させて追加する方法です。それをトレーニングセットに追加します。

2.3 図を理解する能力

GPT-4 は画像形式でのグラフ入力をサポートしているため、OpenAI の有名なマルチモーダル アルゴリズム CLIP [8] では、図 12 に示すように、比較学習を通じて画像とテキストを同じ特徴空間にマッピングできると述べています。CLIP の画像エンコーダと組み合わせることで GPT-4 の画像入力を実現できますが、このとき GPT のテキスト特徴に合わせられる画像エンコーダを学習させて画像の出力を利用する必要があります。 CLIP のエンコーダーを画像トークンとして使用し、最後にこのトークンを GPT-4 の特徴ベクトルとしてエンコードするための埋め込みレイヤーを追加します。

図 12: 対照学習を通じて画像とテキストを同じ特徴空間に投影する CLIP の構造

GPT-4 は図 2 のこの写真の例を理解できることに加えて、最も驚くべきことは、GPT-4 は多くの詳細を含む図 13 の学術的な画像も理解できることです。学術的な画像では、画像内で参照されているシンボルとターゲット間の位置関係が非常に重要であるため、GPT-4 が 1 回の画像エンコードだけでこれらの詳細をキャプチャできる場合、この画像エンコーダは非常に強力な緊急事態も表示する必要があります。この画像エンコーダは、1000億規模のパラメータ量を実現できる可能性が高い画像エンコーダです。

図 13: GPT-4 は学術画像の特定の詳細を理解する機能を備えています

GPT-4 のマルチモーダル機能のもう 1 つの可能性は、マルチモーダル大規模言語モデル (Multimodel Large Language Model、MLLM) に似ています。その中で、Microsoft の KOSMOS-1 は、GPT-4 と同様のマルチモーダル言語モデルの能力を実証し、図 14 に示すように、KOSMOS-1 はマルチモーダル質問応答においても非常に強力な創発能力を実証しました。

KOSMOS-1 は、Transformer デコーダに基づくマルチモーダル モデルです。これは、さまざまなモダリティのデータをつなぎ合わせます。たとえば、 <s> と </s> はテキスト入力を表し、 <image> と <\image> は画像入力を表します。画像の埋め込みには、Microsoft の METALM [13] によって計算された特徴ベクトルが使用されます。GPT-4 は KOSMO-1S のアイデアを活用し、OpenAI 独自のマルチモーダルな作業の一部を組み合わせるのではないかと私たちは推測しています。

図 14: 非常に強力な画像理解機能を備えた Microsoft の KOSMOS-1 が登場

GPT-4 のマルチモダリティの技術的な詳細については、GPT-4 の画像インターフェイスが開かれるのを待って、判明するまでに多くのテストを行うことができます。

2.4 より安全な出力

既存の深層学習モデルの考え方は、トレーニング セットに合わせて大規模なモデルを使用することですが、生成モデルの場合、その出力内容は完全には制御可能ではなく、GPT-4 も例外ではありません。GPT-4 技術レポートは、テキスト モデルには幻覚、有害なコンテンツ、差別、虚偽の情報、暴力、プライバシー、ネットワーク セキュリティなど、次の種類のリスク アウトプットがあると指摘しています。GPT-4 は、この問題を軽減するために多くの取り組みを行ってきました。

GPT-4 のリスク出力を軽減する最初の問題は、対立テストのレッドチームとしてさまざまな分野から 50 人以上の専門家を雇うことです。レッドチームの仕事は、GPT-4 によって与えられる出力をテストするために危険な質問をし、攻撃を試みることです。OpenAI は、ドメイン専門家の対立を通じて、GPT-4 のセキュリティを向上させるために、さまざまな方向から大量のドメイン専門家のデータも収集しました。

2.4.1 幻覚

幻聴は生成モデルにとって非常に難しい問題であり、モデルによって生成される不条理または非現実的なコンテンツ、つまり重大なナンセンスを指します。モデルによって生成されるコンテンツ文がますます流暢になり、コンテンツがますます説得力を増していくにつれて、この幻覚動作は特に有害になります。モデルの幻覚は次の理由で要約できます。

  1. データの偏差: データの精度など、トレーニング セットに何らかの偏差が存在する可能性があり、エラーがモデルの自然言語の理解に影響を与える可能性があります。
  2. データの疎性: トレーニング セットの特定の側面でのデータが比較的少ない場合があり、その結果、この側面でモデルを生成する能力が制御不能になります。
  3. モデルの構造: モデルの構造とパラメーターの量は、モデルの一般化と表現能力に影響を及ぼし、モデルのいくつかの側面で幻覚を引き起こす可能性があります。

GPT-4 は、この問題を解決するために 2 つの戦略を採用しています。

1つ目はChatGPTのデータを学習に利用する方法です。この手法の利点は、ChatGPTが当時から有害なコンテンツの生成をある程度拒否する機能を備えており、インターネット上をクローリングするデータよりも信頼性が高いことです。しかし、その問題は、ChatGPT の問題を GPT-4 に継承する可能性があることです。また、あるモデルで生成されたコンテンツを別のモデルのトレーニング データとして依存すると、モデルの過剰適合につながる可能性があります。

2 番目のアプローチは、自動評価と人間による評価を含む、モデルによって生成された幻覚サンプルを検出するために NLP 技術を採用することです。この方法の利点は、モデルによって生成された幻覚の問題を効果的に検出して修正できることです。自動評価方法の欠点は、評価モデルの欠陥により一部のファントムサンプルが見逃される可能性があることです。また、手動評価の最大の問題は、人件費が非常に高いことです。

幻覚の検出という点では、Meta は非常に重要な貢献をしています。彼らは、幻覚検出タスクを提案し、このタスク用の幻覚検出データセット HADES [15] を作成した一方で、幻覚データを合成して事前学習を行う幻覚検出手法 [16] を提案しました。モデルの微調整を行っております。このモデルは、文中に出現する幻覚単語を検出して、生成されたコンテンツの信頼性を評価し、それによって幻覚の可能性を軽減できます。図 15 はこの方法を機械翻訳した例で、1 の部分が生成された幻覚コンテンツに相当します。ここでは、OpenAI が Meta と同様の手法またはデータを採用したのではないかと推測されています。

図15:FAIRが提案する機械翻訳における幻覚検出手法の例

具体的には、OpenAI は、GPT-4 自体を使用して幻覚データまたは未比較データを生成し、それらを図 6 のステップ 2 の報酬モデルのトレーニング セットに組み込む複数ステップのプロセスを設計しました。

  1. GPT-4 にプロンプ​​ト p を入力すると、応答 r1 が得られます。
  2. p と r1 を GPT-4 にフィードし、すべての幻覚トークンをリストするように指示します。幻覚がない場合は、幻覚 h1 がリストされるまで生成を続けます。
  3. p、r1、h1 を GPT-4 に入力し、幻覚なしで応答 r2 を生成するように指示します。
  4. p と r2 を GPT-4 に入力し、すべての幻覚トークンをリストさせます。幻覚が検出されない場合は、r1 と r2 を比較サンプル ペアとして報酬モデルのトレーニング セットに入れることができます。

2.4.2 その他の問題

その他の考えられるリスク出力については、OpenAI はその技術的ソリューションを詳細に紹介していませんでしたが、その技術的ソリューションから、おそらく次のタイプの手法を使用したことがわかります。

  1. RBRM を使用して潜在的なリスクを検出します。
  2. モデルに、迅速な学習を通じてそのような質問への回答を拒否することを学習させます。
  3. レッドチームを使用して、これらの考えられる問題を見つけてください。
  4. トレーニング データをフィルタリングし、リスク問題を引き起こす可能性のあるサンプルを削除します。
  5. 報酬モデルをトレーニングし、有害な出力コンテンツをモデルに罰させます。

2.5 プログラミング能力

GPT-4 は ChatGPT と比較してプログラミング能力が大幅に向上しており、思考の連鎖により論理解析能力が強化されている可能性がある一方で、OpenAI の有名なコード生成アルゴリズムから学習している可能性があります。コードX[3] 。CodeX は、コード生成の分野における GPT-3 の派生バージョンであり、Copilot プラグインの背後にある基本アルゴリズムでもあります。CodeX は GPT シリーズの Decoder-only アーキテクチャ システムを採用しており、モデルのパラメータ量は 12M から 12B までのさまざまなバージョンがあります。CodeX のトレーニングは、事前トレーニングと微調整の 2 つの段階に分かれています。

トレーニング前のフェーズでは、OpenAI はまず Github から大量の Python ファイルをクロールし、クリーニング後にサイズ 159 GB のトレーニング セットを取得しました。CodeX はコード生成モデルであるため、GPT-3 によってトレーニングされた重みを使用せず、GPT-3 のモデル ハイパーパラメーターを完全にコピーするのではなく、コード生成モデルを再トレーニングします。

微調整の段階で、OpenAI は競合 Web サイト、インタビュー Web サイト、Github の単体テスト スクリプトから約 40,000 個のデータを収集しました。CodeXでは、コードの正しさを評価する際に、従来のBLEUスコアではなく、コードが合格できる単体テストの割合を評価基準とし、評価テストセットHumanEvalと評価基準pass@kを定めています。

データ漏洩を避けるため、HumanEval のデータは、合計 164 の質問と多数のテスト ケースを含め、すべて人間によって構築されています。HumanEval は、各関数を関数シグネチャ、関数アノテーション、関数本体、単体テスト サンプルの 4 つのカテゴリに分類します。ヒント学習を実行する場合、関数シグネチャと関数アノテーションは入力ヒントとして使用され、関数本体は必要な出力として使用され、単体テストは生成されたコードの効果を評価するために使用されます。

CodeXの評価ラベルはLeetcodeと同様、テストに合格したテストケースが何個あるかというもので、CodeXの評価基準pass@kは、生成されたモデルの全回答からk個がランダムに選ばれ、これらから正解が得られる確率を意味します。 kの答え。その計算方法は式(1)の通りです。ここで、n は各質問に対して生成された回答、k は n 個の回答からランダムに選択された k 個、c は単体テストに合格した n 個の回答の数です。

CodeX と GPT-4 はいずれも GPT-3 の次世代モデルであり、GPT-4 が CodeX の既製のアイデアやデータを使用してモデルのプログラミング能力を向上させるのは当然の仕事です。

2.6 多言語能力

GPT-4 の他言語での機能の大幅な向上について、OpenAI は紹介をしておらず、関連する説明も見つかりませんでした。ここで、現在の技術蓄積に基づいて、OpenAI が使用できる技術的ソリューションを推測します。

  1. 他の言語のトレーニング データを改善しました。
  2. モデルが大規模になると、GPT-4 は小規模な言語でより多くの機能を持つことができます。
  3. 既存の対訳コーパスを使用してヒント学習に基づいて機械翻訳タスクを構築する、機械翻訳エンジンを使用してデータの一部を小規模言語に翻訳するなど、小規模言語用のタスクを追加しました。

確かに、この部分には関連情報はあまりありません。コメント エリアでご自身の推測を入力してください。

2.7 ロングシーケンス機能

ここでの長いシーケンスには 2 つの側面が含まれています。一方で、GPT-4 は複数ラウンドの対話をサポートし、他方では、GPT-4 はより長い入力データをサポートします。使用される可能性のあるテクノロジについて説明します。

2.7.1 複数ラウンドの対話

ChatGPT と GPT-4 はどちらも継続的対話をサポートしていますが、OpenAI は継続的対話機能の背後にある技術的ソリューションを提供していません。前のダイアログが各ラウンドのダイアログでモデルへの入力として大まかに提供される場合。理論的には機能しますが、この方法の最大の問題は、対話ラウンド数が増加するにつれて入力データも急激に増加し、ChatGPT または GPT-4 の予測速度がどんどん遅くなるということですが、私は気づきませんでした。 ChatGPT と GPT-4 を使用した複数ラウンドの会話では、この速度が徐々に低下します。

この問題をモデルの観点から解決したい場合、この問題を解決できるアルゴリズムがあれば十分です。それが Transformer-XL [10] です。Transformer-XL の重要な改良点は、図 16 に示すように、フラグメント再帰メカニズムを提案することです。フラグメント再帰メカニズムは、Transformer と RNN の組み合わせに似ています。その中心的な考え方は、長さが無制限の可変長データの場合、各フラグメントの長さが固定され、このフラグメントの特性が計算中に計算され、その後、 next フラグメント化すると、前のフラグメントの特徴が現在のフラグメントに追加されるため、モデルは任意の長さの特徴を処理できます。

図 16: Transformer-XL のフラグメント再帰メカニズム

ChatGPT と GPT-4 の間の複数ラウンドの対話に応じて、OpenAI は Transformer-XL のフラグメント再帰のアイデアを借用したのではないかと私は推測しています。つまり、GPT-4 は、$t$ 番目のラウンドの計算を実行するときに、キャッシュされたラウンド t-1 とラウンド t の特徴を追加し、現在のラウンドの計算にそれらを一緒に使用します。t-1 ラウンドでは t-2 ラウンドの特性も考慮されるため、理論上、この方法では予測時間に影響を与えることなく、過去の多くのラウンドの対話内容を取得できます。

2.7.2 ロングシーケンス入力

従来の Transformer は、入力長が n の Transformer の複雑さが O(n^2) であるため、長いシーケンスの問題を扱うのは苦手です。Transformer のデフォルトの入力長は 512 です。512 を超える長さの入力データに対する Transformer の解決策は、入力データを長さ 512 の複数のテキスト ブロックに分割することですが、これによりコンテキストの断片化が発生します。前のセクションで紹介した Transformer - XL はこの問題を解決するために使用されます。

ここでは、長いシーケンス入力を解決するための OpenAI 独自のアルゴリズムである Sparse Transformer [11] を紹介します。GPT-3 は通常の Transformer と Sparse Transformer の混合モードであるため、Sparse Transformer は GPT-4 によっても使用される可能性が非常に高いモデルです。長い入力テキストを処理しますが、通常の Transformer とどのように混合するかは不明です。Sparse Transformer の特徴は、最も寄与する Top-k 特徴量の状態のみに注目することです。これは、Transformer の集中的な注目をスパース アテンション メカニズムを使用して置き換え、アテンションの計算の複雑さを O(n \sqrt n)。従来のTransformerの高密度アテンションカーネルは、トライドアテンションと固定アテンションに分解され、各アテンションカーネルは行アテンションカーネルと列アテンションカーネルに分割されます。図 17 に示すように、分解されたアテンション カーネルはすべてスパースであるため、モデルの複雑さが大幅に軽減されます。

図 17: 集中した注意力とまばらな注意力

GPT-4 はより長いデータ シーケンスをサポートしているため、長いデータを効率的に処理するための Transformer の 2 つのバリエーションもここにリストします。GPT-4の技術レポートは多すぎるので、GPT-4のネットワーク構造がどうなっているのか、OpenAIの正式発表を待つしかありません。

2.8 技術的解決策の概要

このセクションでは、多くの技術的解決策について説明しましたが、その中には比較的信頼性の高いものもあれば、高度に憶測が含まれているものもあります。以下の表は、各オプションの信頼性を示しています (1 から 5 まで増加します)。

出現 思考の連鎖 自己宣伝 クリップ コスモス-1 コードX XLM トランスXL スパース転送
5 5 3 3 3 4 1 1 4

上記の推測によれば、GPT-4 の技術的解決策はおおよそ次のとおりであると推測できます。

  • 最初のステージ: マルチモーダル事前トレーニング モデルを構築し、微調整します。このステージの主な目的は、クロールされた大量のデータに基づいて、特定の機能を備えた GPT-4 の最初のバージョンをトレーニングすることです。トレーニング方法は GPT に似ています-3. その研究は 2 つの点に焦点を当てています: 1 つは、KOSMOS-1 または他のマルチモーダル モデルに基づいてマルチモーダル事前トレーニング モデルを構築し、Transformer-XL を使用して長いテキストの複雑さの高い問題を解決することです。モデルをトレーニングするための大規模なクロール データ、シングルモーダル、マルチモーダル、従来のプロンプト学習データ、思考チェーン プロンプト学習データ、コード データなどのデータを収集します。
  • 第 2 段階: GPT-4 動作の調整この段階の主な目的は、手動マーキングに基づいてモデルの動作を人間の動作と調整し、モデルのリスクを軽減することです。この段階で作成する必要があるモデルは 2 つあり、1 つは専門知識に基づいたルールベースの報酬モデル RBRM を設計すること、もう 1 つは、その出力データに基づいて深層学習ベースの報酬モデル RM をトレーニングすることです。手動マーキングデータと幻覚検出モデルです。
  • 第 3 段階: RBRM と RM を報酬関数として使用し、RLHF を使用してモデルをトレーニングします。第 2 段階と第 3 段階のトレーニング方法は ChatGPT と同様です。
  • 第 4 段階: モデルの自己改善。GPT-4 のトレーニングは、周期的な反復と一定のプロンプトを伴うトレーニング プロセスになる場合があります。この段階で、GPT-4 は、モデルの自己改善からのトレーニング データ、専門家のレッド チームのフィードバックからのテスト ケースなど、さらに多くのデータを自動的に生成し、これらのデータを使用してモデルをトレーニングする最初の段階に戻ります。

3. GPT-4の開発の方向性

最近、私も GPT-4 と ChatGPT を日常業務に適用しましたが、GPT-4 の強力な機能に大きな衝撃を受けました。日々のプログラミングや記事執筆に役立つだけでなく、日常の雑務の解決にも役立ち、作業効率が大幅に向上します。インターネット上には GPT-4 に関するさまざまな賞賛や批判を含む無数の記事が存在しますが、ここでは、GPT-4 の開発方向について議論したり、GPT-5 の登場の可能性を予測したりするために分析した技術的ソリューションを組み合わせたいと思います。

3.1 GPT-4の最適化の方向性

GPT-4 は、テキスト生成、コード生成、画像理解、論理的推論機能において強力な機能を実証してきましたが、まだ改善の余地が多くあります。今後の研究では、次のような重要な方向性が示される可能性があります。

  1. 現在の GPT-4 の使用コストは依然として非常に高く、GPT-4 との対話のコストは約 1 元です。ChatGPT の維持費は 1 日あたり 100 万ドル近くかかりますが、GPT-4 のパラメータ量は 1 兆規模に近いと予測されており、維持費は 500 万ドル程度ではないかと推測されます。GPT-4 をより多くの人が使用できるように、さらにはより多くの人が独自の GPT-4 をトレーニングできるようにモデルを軽量化する方法は、将来の研究の方向性になります。
  2. GPT-4 は絶対に安全というわけではなく、GPT-4 には依然として幻覚症状が存在します。GPT-4 の幻覚検出、レッドチーム対決、RBRM などは、セキュリティ問題に対する究極の解決策ではありません。絶対に安全なシステムはありませんが、OpenAI は直面する可能性のある法的リスクを軽減するためにセキュリティに多額の投資を行っています。
  3. GPT-4 はまだオフライン モデルですが、GPT-4 が検索エンジンに代わることができない重要な理由は、GPT-4 の知識がリアルタイムで更新されないことです。その知識レベルはデータをクロールする締切日に依存するため、締切日以降に発生したニュース、概念、イベントなどに対処できなくなります。
  4. GPT-4 はまだマルチモダリティの予備調査です。マルチモダリティと LLM は、今後数年間で AGI の 2 つの最も重要な方向性になる可能性があります。OpenAI 自体も、マルチモダリティの方向で多くの素晴らしい取り組みを行っています。GPT-4 の機能をマルチモダリティの方向にさらに活用し、より多くのモダリティとより多くのアプリケーションを関与させる方法が、OpenAI の次の主要な作業になります。

3.2 GPT-4の適用

GPT-4 は、強力な生成機能と論理的推論機能を備えており、私たちの仕事のやり方に大きな影響を与える可能性があります。この記事の読者の多くはアルゴリズム関連の科学研究や仕事に携わっていると思いますが、皆さんにも GPT-4 (ChatGPT も含む) を使用することをお勧めします。ここでは、私の経験に基づいて、より役立つと思われるいくつかの指示をリストします。

  1. 関数コードを作成し、GPT-4 に特定の機能を満たす複雑なフレームワークを作成するように依頼するには、複雑なヒントを提供する必要がある場合があり、生成されるコードを確認することも必要です。ただし、GPT-4 がネットワークの構築や関数関数の実装など、それほど難しくない関数関数の実装を許可されている場合でも、GPT-4 によって生成されたコードの有用性は依然として非常に高くなります。
  2. テキストの磨きを行う。技術的な研究開発担当者として、私たちの文章は良くないかもしれません。現時点では、GPT-4 を使用して、書く記事を磨き上げることができます。特に英語で論文や電子メールを書く場合、GPT-4 はチングリッシュの問題を解決するのに役立ちます。
  3. 論文を読んだ後、GPT-4 は優れた機械翻訳ツールであるだけでなく、試してみたところ、その翻訳効果はプロフェッショナリズムと一貫性の点で従来の機械翻訳モデルよりもはるかに優れていました。さらに、GPT-4 は要約、一般化、抽出作業も行うことができるため、論文の中核となるテクノロジーを迅速に理解することができます。ChatGPT をベースにした ChatPDF は、論文を読むための非常に強力なアシスタントです。図 18 は、ChatGPT を使用して GPT-4 で生成されたコンテンツを読むことを示しています。
    図 18: GPT-4 の技術レポートに基づいて ChatPDF によって生成されたセキュリティ向上に関する GPT-4 の取り組み
  4. 日常業務において、GPT-4は公式発表、スピーチ、お礼状などの内容を書くのが得意で、仕事の要約や要約も得意で、これらの面で人間の効率を向上させることができます。アイデアがないことについては、心を開くのに役立つ GPT-4 に尋ねてみます。

なお、GPT-4は幻覚などのセキュリティ問題を完全に解決するものではなく、GPT-4で生成されるコンテンツについては、厳重な審査を行った上で使用しないと、説明不能な問題が発生する可能性があります。GPT-4 がこの分野に携わる専門スタッフの代わりにできないのもこの理由です。GPT-4 のセキュリティ問題が解決される前に、専門家が常に問題をチェックする必要があり、GPT-4 のセキュリティ問題が解決される可能性があるからです。生成モデルのライフサイクル全体に付随します。

4. その他の LLM

ChatGPT と GPT-4 の提案により、国内外の企業がすぐに追随し、LLM モデルの開発が活発になり、多くの企業が独自の LLM を提案しました。

その中でも中国の代表的な仕事としては以下のような仕事が挙げられます。

  • Baidu の Wenxinyiyan: Baidu の Wenxinyiyan ( ERNIE -Bot) は、中国で最も初期のフォローアップ事前トレーニング大規模モデルですが、Baidu はその実用的なテクノロジーを常に秘密にしてきました。しかし、彼のデモと多くのテスターのテスト結果から判断すると、Wen Xinyiyan は Baidu の多くの AI タスクをエンジニアリング的に組み合わせたようなものです。
  • Ali の Tongyi Qianwen: Tongyi Qianwen は、Transformer-XL で構築されたテキスト生成モデルであり、20 億のパラメーターがあります。招待コードを受け取ったネチズンからのフィードバックによると、Tongyi Qianwen のテキスト生成効果は Wenxin Yiyan よりもわずかに悪いです。
  • SenseTime の Rixin: 記者会見の表示効果から判断すると、SenseTime の Rixin は現在中国で最高の LLM であり、ChatGPT と同様の効果さえ達成しています。Ririxinには、「相談」、「苗花」、「瑞英」、「瓊玉」、「Gewu」の5つの主要機能が含まれており、このうち「相談」はGPT-4に準拠しています。
  • 清華大学の GLM: GLM [17] は、清華大学と Zhipu AI が共同で立ち上げた、英語と中国語のトレーニングを使用するオープンソースのバイリンガル言語モデルです。最大パラメーター スケールは 1,300 億に達しています。GLM-130B の効果は GPT- 3とChatGPTの間。GLM は、単一マシン上で実行および微調整できる ChatGLM および GLM-6B も発表しました。これは、現時点で最高のオープンソースの中国語事前トレーニング大規模モデルです。
  • 復丹大学の MOSS: MOSS は復丹大学 NLP 研究室の Qiu Xipeng 氏のチームであり、最近関連コードをオープンソース化しました。現在の効果から判断すると、MOSS はあまり成熟していませんが、良いニュースとしては、Qiu 先生のチームが MOSS を最適化しているということです。

国内の迅速なフォローアップだけでなく、海外の大手企業も独自のLLMを立ち上げており、代表的なものとしては以下のようなものがあります。

  1. MetaAI の LLaMA: LLaMA [19] には、70 億、130 億、330 億、650 億の 4 つのサイズのパラメータがあります。OpenAI とは異なり、MetaAI はコードとモデルをオープンソース化しており、単一マシンの展開をサポートしています。LLaMA の効果は GPT-4 ほど良くありませんが、そのオープンソースおよびスタンドアロン機能は、多くの機関や個人による二次開発を惹きつけています。
  2. Google の PaLM と LaMDA: PaLM [20] は、GPT シリーズに似た構造を持つ Google によって提案された言語モデルで、総パラメータ量は 5,400 億に達します。Google は最近、これらを組み合わせたマルチモーダル モデル PaLM-E [21] を発表しました。画像機能。LaMDA[22] は、より人間に近い表現を持つ、より自然で人道的な言語モデルを生成するために Google が立ち上げた言語モデルです LaMDA は、GPT-3 をベースに改良され、より多くの対話シーンや感情が追加され、理解力をより適切にシミュレートできます人間の対話と思考。Google の研究者である Blake Lemoine でさえ、LaMDA をしばらくテストした後、「LaMDA にはすでに個性があるのか​​もしれない」と嘆いています。
  3. Claude of Anthropic: Anthropic は、OpenAI の元従業員によって設立され、Google R&D によってサポートされている人工知能企業です。彼らは最近、LLM: Claude も立ち上げました。現時点では、Cluade の効果は ChatGPT よりわずかに強いですが、GPT-4 よりはかなり弱いです。

このほか、海外LLMとしてはBigScience社のBLOOM、Stanford社のAlpaca、Microsoft社のMETALM、KOSMOS-1など、国内ではHuawei社のPangu、Tencent社のWeLMなどがあります。これらの一般的なモデルに加えて、LLM は医療分野の HuaTuo[23]、金融分野の BloombergGPT[24]など、細分化された分野でも使用されています。

5. まとめ

GPT-4が第4次産業革命をもたらすかどうかは検証に時間を要するテーマであり、私にここで結論を述べる資格はないが、GPT-4は私個人にとって非常に大きな影響を与えた。

まず第一に、これは従来の人工知能に対する私の理解をある程度揺るがしました。マクロ物理学の多くの定理が微物理学では無効であるのと同様に、私が従来の人工知能で蓄積してきた経験の多くは GPT-4 では無効です。その強力なゼロサンプル学習機能とより高度な機能は、深層学習に対する私の従来の理解をはるかに超えています。

第二に、GPT-4 と ChatGPT は日常業務で最も強力なアシスタントになりつつあります。GPT-4 は、この記事を書くときにも非常に役立ちました。コードを書いたり、記事を修正したりするだけでなく、機能しない問題を解決するのにも役立ちます。問題。結局のところ、キノコのように生えてきたさまざまな大きなモデルは、ますます悲観的になった私の深層学習に新たな自信と活力を注入してくれました。

GPT-4 のテクノロジーについては、誰もがそれを理解し、使い方を学ぶ必要があると思います。コンピューター関連の仕事かどうかに関係なく、料理をする人にとっても、おいしいレシピが生み出されるかもしれません。GPT-4を利用する際には生成されるコンテンツも合理的に検討する必要がありますが、GPT-4のみ若干のリスク問題があり、幻覚問題による損失を防ぐために審査を緩めることはできません。

今後、GPT-4は私たちに多くの影響をもたらすことは間違いありません。まず、GPT-4 によって生成された多数の区別できないコンテンツがインターネット上にすぐに出現するため、一般の人々が統一された GPT-4 の動作パターンによって影響を受けるかどうかについては、熟考する価値があります。第二に、GPT-4 は一部の仕事の生産性を大幅に解放し、これらの仕事に取って代わることさえありますが、この機会を掴めるかどうかは、この絡み合った環境で新たな機会を見つけることが非常に重要です。最後に、GPT-4 がどのような影響を与えるかは人によって異なりますが、GPT-4 が本当に AGI をもたらすのであれば、友人たちがそれを見逃さないことを願っています。

参照

  • [1] https://cdn.openai.com/papers/gpt-4.pdf

  • [2] https://zhuanlan.zhihu.com/p/614340292

  • [3] Chen M、Tworek J、Jun H、他。コードでトレーニングされた大規模な言語モデルを評価する[J]。arXiv プレプリント arXiv:2107.03374、2021。

  • [4] Bai、Yuntao、他。「人間のフィードバックからの強化学習を使用して、有益で無害なアシスタントをトレーニングします。」 arXiv プレプリント arXiv:2204.05862  (2022)。

  • [5] Wei J、Tay Y、Bommasani R、他。大規模言語モデルの新たな能力[J]。arXiv プレプリント arXiv:2206.07682、

  • [6] Wei J、Wang X、Schuurmans D、他。思考の連鎖のプロンプトは、大規模な言語モデルにおける推論を引き出します[J]。arXiv プレプリント arXiv:2201.11903、2022。

  • [7] Huang J、Gu SS、Hou L、他。大規模な言語モデルは自己改善できます[J]。arXiv プレプリント arXiv:2210.11610、2022。

  • [8] ラドフォード、アレック、他。「自然言語監視から伝達可能な視覚モデルを学習する。」 機械学習に関する国際会議PMLR、2021年。

  • [9] ギョーム・ランプルとアレクシス・コノー。クロスリンガル言語モデルの事前トレーニング。 arXiv プレプリント arXiv:1901.07291、2019。

  • [10] Zihang Dai、Zhilin Yang、Yiming Yang、Jaime Carbonell、Quoc V.Le、および Ruslan Salakhutdinov。Transformer-XL: 固定長のコンテキストを超えた注意深い言語モデル。 arXiv プレプリント arXiv:1901.02860、2019。

  • [11] レウォン・チャイルド、スコット・グレイ、アレック・ラドフォード、イリヤ・サツケヴァー。スパーストランスフォーマーを使用した長いシーケンスの生成。 arXiv プレプリント arXiv:1904.10509、2019。

  • [12] Huang、Shaohan、他。「必要なのは言語だけではありません。認識を言語モデルと一致させることです。」 arXiv プレプリント arXiv:2302.14045  (2023)。

  • [13] ハオ、ヤル、他。「言語モデルは汎用インターフェイスです。」 arXiv プレプリント arXiv:2206.06336  (2022)。

  • [14] Zhang、Zhuosheng、他。「言語モデルにおけるマルチモーダルな思考連鎖推論」 arXiv プレプリント arXiv:2302.00923  (2023)。

  • [15] Liu、Tianyu、他。「自由形式のテキスト生成のための、トークンレベルの参照不要の幻覚検出ベンチマーク。」 arXiv プレプリント arXiv:2104.08704  (2021)。

  • [16] Zhou、Chuting、他。「条件付きニューラル シーケンス生成における幻覚コンテンツの検出」 arXiv プレプリント arXiv:2011.02593  (2020)。

  • [17] Du、Zhengxiao、他。「GLM: 自己回帰による空白埋めによる一般言語モデルの事前トレーニング。」 計算言語学協会の第 60 回年次総会の議事録 (第 1 巻: 長編論文)2022年。

  • [18] Zhao、Wayne Xin、他。「大規模な言語モデルの調査」。 arXiv プレプリント arXiv:2303.18223  (2023)。

  • [19] Touvron、Hugo、他。「Llama: オープンで効率的な基礎言語モデル。」 arXiv プレプリント arXiv:2302.13971  (2023)。

  • [20] Chowdhery、Aakanksha、他。「Palm: パスウェイを使用した言語モデリングのスケーリング」 arXiv プレプリント arXiv:2204.02311  (2022)。

  • [21] ドリース、ダニー、他。「Palm-e: 具現化されたマルチモーダル言語モデル」 arXiv プレプリント arXiv:2303.03378  (2023)。

  • [22] Thoppilan、Romal、他。「Lamda: ダイアログ アプリケーションの言語モデル」 arXiv プレプリント arXiv:2201.08239  (2022)。

  • [23] ワン、ハオチュン、他。「HuaTuo: 中国医学知識による LLaMA モデルの調整」 arXiv プレプリント arXiv:2304.06975  (2023)。

  • [24] ウー、シジエ、他。「BloombergGPT: 金融のための大規模言語モデル」 arXiv プレプリント arXiv:2303.17564  (2023)。

  • [25] Bubeck、Sébastien、他。「汎用人工知能の火花: gpt-4 による初期実験」 arXiv プレプリント arXiv:2303.12712  (2023)。

  • [26] リン、ステファニー、ジェイコブ・ヒルトン、オウェイン・エヴァンス。「Truthfulqa: モデルが人間の虚偽をどのように模倣するかを測定する。」 arXiv プレプリント arXiv:2109.07958  (2021)。

著者: JD Retail 劉燕

コンテンツソース: JD Cloud 開発者コミュニティ

{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4090830/blog/8816351