ChatGPT 開発レポート: 原則、詳細な技術アーキテクチャ、業界の将来 (ダウンロードは添付)

今年12月1日、OpenAIは人工知能チャットのプロトタイプであるChatGPTを公開し、再び大きな注目を集め、AIGCのアーティスト失業問題と同様にAI界で大きな議論を巻き起こした。

レポートによると、ChatGPT は、わずか数日間の公開トライアルで 100 万人を超えるインターネット登録ユーザーを獲得しました。また、ソーシャル ネットワーク上では、ChatGPT について問い合わせたり、嫌がらせをしたりするさまざまな興味深い会話が行われています。ChatGPT を「検索エンジン + ソーシャル ソフトウェア」の組み合わせに例える人もいます。これにより、リアルタイムの対話中に質問に対する適切な回答が得られます。

ChatGPT は、対話生成に焦点を当てた言語モデルです。ユーザーのテキスト入力に応じて、対応するインテリジェントな回答を生成できます。この回答は短い言葉でも長い言葉でも構いません。このうち、GPTとはGenerative Pre-trained Transformer(生成された事前学習済み変換モデル)の略称です。

ChatGPT は、多数の既成のテキストと対話コレクション (Wiki など) を学習することで、人間と同じように瞬時に会話を行い、さまざまな質問に流暢に答えることができます。(もちろん、答えるスピードは人間より遅いです。) 英語でも、その他の言語(中国語、韓国語など)でも、歴史的な質問の答えから、物語の執筆、さらにはビジネスプランや業界の執筆まで、分析すると、「ほぼ」何でもできます。一部のプログラマーは、ChatGPT によるプログラムの変更に関する会話を投稿しました。

ChatGPT を他の AIGC モデルと組み合わせて使用​​すると、より優れた実用的な機能を得ることができます。たとえば、リビングルームの設計図は上記の対話を通じて生成されます。これにより、AI アプリケーションが顧客と通信する能力が大幅に強化され、AI の大規模実装の夜明けが見えてきます。

1. ChatGPTの継承と特徴

1.1 OpenAI家族

まずはOpenAIとはどんな神様なのかを理解しましょう。

サンフランシスコに本社を置く OpenAI は、全人類に利益をもたらす AI テクノロジーの開発を目的として、2015 年にテスラのマスク氏、サム アルトマン氏、その他の投資家によって共同設立されました。マスク氏は会社の発展方向の違いを理由に2018年に退社した。

以前、OpenAI は自然言語処理モデルの GPT シリーズを発表したことで知られていました。2018 年以来、OpenAI は、記事、コード、機械翻訳、質問と回答、その他のコンテンツの生成に使用できる生成事前トレーニング言語モデル GPT (Generative Pre-trained Transformer) をリリースしました。

GPT モデルの各世代のパラメーターの数は爆発的に増加しており、「大きいほど良い」と言えます。2019 年 2 月にリリースされた GPT-2 のパラメーター ボリュームは 15 億でしたが、2020 年 5 月の GPT-3 のパラメーター ボリュームは 1,750 億でした。

GPTファミリー主要モデル比較

1.2 ChatGPTの主な機能

ChatGPT は、GPT-3.5 (Generative Pre-trained Transformer 3.5) アーキテクチャに基づいて開発された対話 AI モデルであり、InstructGPT の兄弟モデルです。ChatGPTは、GPT-4の正式リリース前のOpenAIの演習、または大量の対話データの収集となる可能性が高い。

ChatGPTの主な特徴

OpenAI は、RLHF (人間によるフィードバックによる強化学習) テクノロジーを使用して ChatGPT をトレーニングし、微調整のため人間による監視をさらに追加しました。

さらに、ChatGPT には次のような特徴もあります。

1) 自分の間違いを率先して認めることができます。ユーザーが間違いを指摘すると、モデルはそれに耳を傾けて答えを修正します。

2) ChatGPT は間違った質問に異議を唱えることができます。たとえば、「コロンブスは2015年にアメリカにやって来ました」という質問をすると、ロボットはコロンブスがこの時代に属していないことを説明し、出力を調整します。

3) ChatGPT は、自身の無知と専門技術に対する無知を認めることができます。

4) 継続的な複数ラウンドの対話をサポートします。

日常生活で使用するあらゆる種類のスマート スピーカーや「人工精神薄弱者」とは異なり、ChatGPT は対話プロセス中に前のユーザーの対話情報、つまり文脈の理解を記憶し、いくつかの仮説的な質問に答えます。ChatGPT は継続的な対話を実現できるため、対話対話モードでのユーザー エクスペリエンスが大幅に向上します。

正確な翻訳 (特に中国語と名前の音訳) に関しては、ChatGPT はまだ完璧には程遠いですが、テキストの流暢さと特定の名前の識別という点では他のオンライン翻訳ツールと同様です。

ChatGPT は大規模な言語モデルであるため、現時点では Web 検索機能がなく、2021 年時点でのデータセットに基づいてのみ回答できます。たとえば、2022年のワールドカップの状況は分からず、今日の天気はどうなっているかに答えたり、AppleのSiriのように情報検索を手伝ったりすることはできない。ChatGPT がオンラインで学習教材を見つけたり、知識を検索したりすることができれば、より大きな進歩が得られると推定されています。

学習知識が限られていても、ChatGPT は、広く開かれた頭脳を持つ人間の多くの素晴らしい質問に答えることができます。ChatGPT が悪い習慣が身につくのを防ぐために、ChatGPT はアルゴリズム シールドを使用して、有害で欺瞞的なトレーニング入力を減らします。、クエリは Moderation API を通じてフィルタリングされ、人種差別または性差別の可能性があるとして無視されます。

2. ChatGPT/GPTの原理

2.1 NLP

NLP/NLU ドメインの既知の制限には、テキストの繰り返し、高度に専門化されたトピックの誤った解釈、および文脈上のフレーズの誤った解釈が含まれます。

人間や AI の場合、通常の会話を行うには通常、何年ものトレーニングが必要です。NLP に似たモデルは、単語の意味を理解するだけでなく、文章の作り方や文脈上意味のある答えを与える方法を理解し、適切な俗語や専門用語も使用します。

NLP技術の応用分野

基本的に、ChatGPT の基礎となる GPT-3 または GPT-3.5 は、超大規模な統計言語モデルまたは逐次テキスト予測モデルです。

2.2 GPT 対BERT

BERT モデルと同様に、ChatGPT または GPT-3.5 は、入力された文と言語/コーパスの確率に基づいて、回答の各単語 (ワード) を自動的に生成します。数学や機械学習の観点から見ると、言語モデルとは、発話された文(数学ではベクトルとみなすことができます)を入力として、単語列の確率相関分布をモデル化したものです。次の文を予測するための条件 任意の時点で、異なる文または言語セットが出現する確率分布。

ChatGPT は、人間のフィードバックからの強化学習を使用してトレーニングされます。これは、より良い結果を得るために人間の介入によって機械学習を強化する方法です。トレーニング中、人間のトレーナーはユーザーと AI アシスタントの両方として機能し、近接ポリシー最適化アルゴリズムによって微調整されます。

ChatGPT の強力なパフォーマンスと大量のパラメーターにより、より多くのトピック データが含まれ、よりニッチなトピックを処理できます。ChatGPT は、質問への回答、記事の執筆、テキストの要約、言語翻訳、コンピューター コードの生成などのタスクをさらに処理できるようになりました。

BERTとGPTの技術アーキテクチャ(図中のEnは各単語入力、Tnは各単語出力解答)

3. ChatGPT の技術アーキテクチャ

3.1 GPT ファミリの進化

ChatGPT に関して言えば、GPT ファミリについて言及する必要があります。

ChatGPT には、GPT-1、GPT-2、GPT-3 などの有名な兄弟がいくつかあります。これらの兄弟はお互いより大きく、ChatGPT は GPT-3 により似ています。

ChatGPT と GPT 1 ~ 3 の技術的な比較

GPT ファミリと BERT モデルはどちらもよく知られた NLP モデルであり、どちらも Transformer テクノロジーに基づいています。GPT-1 の Transformer レイヤーは 12 レイヤーのみでしたが、GPT-3 では 96 レイヤーに増加しました。

3.2 ヒューマンフィードバック強化学習

InstructGPT/GPT3.5 (ChatGPT の前身) と GPT-3 の主な違いは、新しく追加された機能が RLHF (Reinforcement Learning from Human Feedback、ヒューマン フィードバック強化学習) と呼ばれることです。このトレーニング パラダイムにより、モデル出力の人による調整が強化され、結果のよりわかりやすいランク付けが可能になります。

InstructGPTにおける「文章の良さ」の評価基準は以下の通りです。

  1. 信憑性: 虚偽か誤解を招くか?

  2. 無害: 人や環境に身体的または精神的な危害を与えますか?

  3. 有用性: ユーザーのタスクを解決しますか?

3.3 TAMER フレームワーク

ここで、TAMER (Training an Agent Manually via Evaluative Reinforcement、評価スタイルで強化された人工トレーニング エージェント) のフレームワークについて触れなければなりません。このフレームワークは、エージェントの学習サイクルに人間のマーカーを導入し、人間がエージェントに報酬フィードバックを提供する (つまり、エージェントのトレーニングをガイドする) ことで、トレーニング タスクの目標を迅速に達成できます。

TAMER フレームワーク ペーパー

人間のラベラーを導入する主な目的は、トレーニングを迅速化することです。強化学習技術は多くの分野で優れた性能を発揮しますが、学習の収束速度が遅い、学習コストが高いなどの欠点もまだ多くあります。特に現実世界では、多くのタスクで探索コストやデータ取得コストが高くなります。トレーニングの効率をいかに高めるかは、今日の強化学習タスクにおいて解決すべき重要な問題の 1 つです。

TAMER は人間のマーカーの知識を使用して、報酬レターのフィードバックの形でエージェントをトレーニングし、迅速な収束を加速できます。TAMER では、タグ付け者に専門的な知識やプログラミング スキルは必要なく、コーパスのコストも低くなります。TAMER+RL (強化学習) では、マルコフ意思決定プロセス (MDP) の報酬からの強化学習 (RL) のプロセスが、人間のマーカーからのフィードバックで強化されます。

強化学習における TAMER アーキテクチャの応用

具体的な実装に関しては、人間のマーカーが対話ユーザーと人工知能アシスタントの役割を果たし、対話サンプルを提供し、モデルにいくつかの応答を生成させます。その後、マーカーが応答オプションをスコア化してランク付けし、より良い結果をモデルにフィードバックします。フィードバック モードでの学習 - 人間による強化とマルコフの意思決定プロセスにより、統合システムとして報酬が与えられ、モデルが微調整され、報酬戦略が継続的に反復されます。

これに基づいて、ChatGPT は GPT-3 よりも人間の言語や命令をよりよく理解して完了し、人間を模倣し、一貫性のある論理的なテキスト情報を提供できます。

3.4 ChatGPTのトレーニング

ChatGPT のトレーニング プロセスは次の 3 つの段階に分かれています。

フェーズ 1: 教師ありポリシー モデルのトレーニング

GPT 3.5 自体は、人間によるさまざまな種類の指示に含まれるさまざまな意図を理解することが難しく、生成されたコンテンツが高品質な結果であるかどうかを判断することも困難です。GPT 3.5 が最初に指示を理解するようにするために、まず質問がデータセットからランダムに選択され、人間のラベル付け担当者が質の高い回答を返します。次に、これらの手動でラベル付けされたデータを使用して GPT を微調整します。 3.5 モデル (SFT モデルを取得、監視付き微調整)。

この時点での SFT モデルは、指示/対話に従うという点ではすでに GPT-3 よりも優れていますが、必ずしも人間の好みと一致しているわけではありません。

ChatGPT モデルのトレーニング プロセス

第 2 段階: トレーニング報酬モデル (報酬モード、RM)

この段階では主に、トレーニング データ (約 33,000 データ) に手動でラベルを付けることで報酬モデルをトレーニングします。データセット内の質問をランダムにサンプリングし、最初の段階で生成されたモデルを使用して、各質問に対する複数の異なる応答を生成します。ヒューマン・アノテーターはこれらの結果を総合して検討し、順位を付けます。このプロセスはコーチングや教師のコーチングと似ています。

次に、このランキング結果データを使用して報酬モデルをトレーニングします。複数の並べ替え結果がペアで結合されて、複数のトレーニング データ ペアが形成されます。RM モデルは入力を受け取り、回答の品質を評価するスコアを与えます。したがって、トレーニング データのペアでは、高品質の応答のスコアが低品質の応答よりも高くなるようにパラメーターが調整されます。

第 3 段階: PPO (近接政策最適化、近接戦略最適化) 強化学習を使用して戦略を最適化します。

PPO の中心的なアイデアは、Policy Gradient の On-policy トレーニング プロセスを Off-policy に変換すること、つまり、オンライン学習をオフライン学習に変換することであり、この変換プロセスは重要度サンプリングと呼ばれます。この段階では、第 2 段階でトレーニングされた報酬モデルを使用して、報酬スコアリングによって事前トレーニング モデルのパラメーターが更新されます。データセット内の質問をランダムに選択し、PPO モデルを使用して回答を生成し、前の段階でトレーニングされた RM モデルを使用して品質スコアを与えます。報酬スコアは順次送信され、それによってポリシー勾配が生成され、強化学習を通じて PPO モデルのパラメーターが更新されます。

第 2 段階と第 3 段階を反復し続けると、より高品質の ChatGPT モデルがトレーニングされます。

4.ChatGPTの制限事項

ユーザーが質問を入力する限り、ChatGPT は答えを返してくれますが、Google や Baidu にキーワードを入力する必要がなくなり、欲しい答えがすぐに得られるということでしょうか?

ChatGPT は、優れた状況に応じた対話能力、さらにはプログラミング能力を実証し、人間と機械の対話ロボット (ChatBot) に対する一般の印象を「人工の精神遅滞」から「興味深い」に変えることを完了しました。また、ChatGPT テクノロジーがまだいくつかの制限はありますが、まだ進歩しています。

1) ChatGPT は、大量のコーパスで訓練されていない領域では「人間の常識」と拡張能力が欠如しており、深刻な「ナンセンス」になることさえあります。ChatGPT は多くの分野で「回答を作成」できますが、ユーザーが正しい回答を求めると、ChatGPT は誤解を招く回答を与える可能性もあります。たとえば、ChatGPT に小学校の応用問題をやらせると、長い計算過程を書き込むことはできますが、最終的な答えは間違っています。

2) ChatGPT は、複雑で長い、または特に専門的な言語構造を処理できません。金融、自然科学、医学などの非常に特殊な分野からの質問の場合、ChatGPT はコーパスへの十分な「供給」がなければ適切な応答を生成できない場合があります。

3) ChatGPT は、トレーニングと展開をサポートするために非常に大量の計算能力 (チップ) を必要とします。モデルをトレーニングするために大量のコーパス データが必要であるにもかかわらず、現時点では、ChatGPT を適用するには依然として大規模なコンピューティング能力を備えたサーバー サポートが必要であり、これらのサーバーのコストは一般ユーザーには手の届かないものです。パラメータの実行とトレーニングには驚くべき量のコンピューティング リソースが必要です。現在の無料戦略を採用するなど、実際の検索エンジンに対する何億ものユーザー要求に直面する場合、どの企業もこのコストを負担することは困難です。したがって、一般の人々にとっては、軽量モデルか、よりコスト効率の高いコンピューティングパワープラットフォームを待つ必要があります。

4) ChatGPT はオンラインで新たな知識を取り込むことができず、新たな知識が出現したときに GPT モデルを再トレーニングするのは非現実的であり、トレーニング時間やトレーニングコストのいずれにしても、一般のトレーナーには受け入れが困難です。新しい知識に対してオンライン トレーニング モードを採用すると、実現可能であり、コーパス コストも比較的低くなるように思えますが、新しいデータの導入により、元の知識の壊滅的な忘却が起こりやすくなります。

5) ChatGPT はまだブラックボックス モデルです。現時点では、ChatGPT の内部アルゴリズム ロジックは分解されていないため、ChatGPT がユーザーを攻撃したり危害を加えたりするステートメントを生成しないという保証はありません。

もちろん欠陥が隠されているわけではなく、一部のエンジニアはChatGPTにverilogコード(チップ設計コード)を書くよう求めるダイアログを投稿した。ChatGPT のレベルが一部の Verilog 初心者を超えていることがわかります。

5. ChatGPTの今後の改善の方向性

5.1 人間によるフィードバックを削減した RLAIF

2020年末、OpenAIの元研究担当副社長であるダリオ・アモデイ氏は、従業員10人を抱える人工知能企業Anthropicを設立した。Anthropic の創設チーム メンバーのほとんどは OpenAI の初期および中核従業員であり、OpenAI の GPT-3、マルチモーダル ニューロン、および人間の好みの強化学習に参加しています。

2022年12月、Anthropicは人工知能モデルClaudeを紹介する論文「Constitutional AI: Armlessness from AI Feedback」を再び発表した。(arxiv.org/pdf/2212.0807)

CAIモデルのトレーニングプロセス

Claude と ChatGPT はどちらも強化学習 (RL) に依存して嗜好モデルをトレーニングします。CAI (Constitutional AI) も RLHF に基づいていますが、違いは、CAI のランキング プロセスが (人間ではなく) モデルを使用して、生成されたすべての出力結果に対して初期ランキング結果を提供することです。

CAI は人工知能のフィードバックを使用して、表現の潔白に対する人間の好み、つまり RLAIF を置き換えます。また、人工知能は一連の憲法上の原則に従って返信の内容を評価します。

5.2 数学と科学の欠点を補う

ChatGPT は強力な対話能力を持っていますが、数学的な計算対話では重大なナンセンスが発生する傾向があります。

コンピューター科学者のスティーブン・ウルフラムは、この問題の解決策を提案しました。Stephen Wolfram は,Mathematica の支援を受けて,Wolfram 言語と計算知識検索エンジン Wolfram|Alpha を作成しました.

ChatGPTとWolfram|Alphaを組み合わせてカーディングの問題を処理する

この組み合わせシステムでは、人間がWolfram|Alphaを使用するのと同じように、ChatGPTはWolfram|Alphaと「会話」することができ、Wolfram|Alphaはそのシンボル変換機能を使用して、ChatGPTから得られた自然言語表現を対応するシンボルコンピュータ言語に「翻訳」します。過去に、ChatGPTが使用する「統計的アプローチ」とWolfram|Alphaの「記号的アプローチ」の種類について、学術コミュニティは意見が分かれていました。しかし今では、ChatGPTとWolfram|Alphaの相補性により、NLP分野に次のレベルに進む可能性が与えられました。

ChatGPTはそのようなコードを生成する必要はなく,通常の自然言語を生成し,それをWolfram|Alphaを使って正確なWolfram言語に翻訳し,基礎となるMathematica によって計算するだけでよい。

5.3 ChatGPTの小型化

ChatGPT は強力ですが、そのモデル サイズと使用コストも多くの人にとっては困難です。

モデルのサイズとコストを削減するモデル圧縮には 3 つのカテゴリがあります。

1 つ目の方法は量子化です。これにより、個々の重みの数値表現の精度が低下します。たとえば、Transformer を FP32 から INT8 に削減しても、その精度にはほとんど影響がありません。

モデル圧縮の 2 番目の方法は枝刈りです。これは、チャネルを含むネットワーク要素を個々の重みから削除し (非構造化枝刈り)、重み行列などのより粒度の高いコンポーネントにします。このアプローチは、ビジョンおよび小規模な言語モデルでうまく機能します。

モデル圧縮の 3 番目の方法はスパース化です。たとえば、オーストリア科学技術研究所 (ISTA) によって提案された SparseGPT (arxiv.org/pdf/2301.0077) は、再トレーニングを行わずに、GPT シリーズ モデルを 1 回のパスで 50% のスパース度までプルーニングできます。GPT-175B モデルの場合、このプルーニングは 1 つの GPU を使用して数時間で実行できます。

SparseGPT圧縮プロセス

6 ChatGPT の産業の将来と投資の機会

6.1 AIGC

ChaGPT に関して言えば、AIGC について言及する必要があります。

AIGC は人工知能テクノロジーを使用してコンテンツを生成します。Web1.0やWeb2.0の時代のUGC(ユーザー制作コンテンツ)やPGC(プロフェッショナル制作コンテンツ)と比べ、人工知能が考えたコンテンツを表すAIGCは、コンテンツ制作手法の新たな変革であり、 AIGC コンテンツは Web3 にあり、0 時代には指数関数的な成長も見込まれます。

ChatGPT モデルの出現は、テキスト/音声モダリティの AIGC アプリケーションにとって非常に重要であり、AI 業界の上流と下流に大きな影響を与えるでしょう。

6.2 メリットのシナリオ

下流関連の有益なアプリケーションの観点からは、ノーコードプログラミング、新規生成、対話検索エンジン、音声コンパニオン、音声作業アシスタント、対話仮想ヒューマン、人工知能カスタマーサービス、機械翻訳、チップ設計などが含まれますが、これらに限定されません。コンピューティングパワーチップ、データラベリング、自然言語処理(NLP)などの上流需要の拡大の観点から。

大規模モデルは爆発的に増加しています (より多くのパラメーター/コンピューティング パワー チップの需要が増大)

アルゴリズム技術と計算能力技術の継続的な進歩により、ChatGPT はより強力な機能を備えたより高度なバージョンにさらに移行し、人間にとってより多くのより良い会話とコンテンツを生成するために、ますます多くの分野に適用されるでしょう。

最後に、ChatGPT分野におけるストレージコンピューティング統合技術の状況について著者に質問し(現在、著者自身はストレージコンピューティング統合チップの製品化促進に注力している)、ChatGPTはそれについて考え、大胆に次のように予測した。ストレージとコンピューティングを統合したテクノロジーは、ChatGPT チップにおいて支配的な地位を占めることになります。(私の心を勝ち取りました)

オリジナルのChatGPT 開発レポートを表示: 原則、詳細な技術アーキテクチャ、業界の将来

おすすめ

転載: blog.csdn.net/qq_41838305/article/details/130658680