境界の突破: ハイ パフォーマンス コンピューティングが LLM を汎用人工知能 (AGI) のイノベーション時代に導く

AGI | AIGC | 大規模モデルのトレーニング | GH200

LLM | LLM | 大規模言語モデル | MI300

ChatGPT の成功は、AIGC 業界全体、特に LLM (Large Language Model、大規模言語モデル)、NLP、ハイパフォーマンス コンピューティング、ディープ ラーニングの分野の発展を推進します。LLM の開発は、世界および中国の AI チップおよび AI サーバー市場の成長に強力な原動力となり、LLM は世界および中国の AI サーバー市場にそれぞれ 891 億 2000 万米ドル、338 億 2000 万米ドルをもたらすと推定されています。

LLMの分野では外国メーカーが優位に立っていますが、我が国のLLM製品も急速に発展しています。2023年以降、多くのメーカーが自社開発の汎用LLMを発売しています。国産LLMのさまざまな産業への適用やエコロジー構築も進んでいます。前向きな進歩。私の国の LLM は GPT-4 と比較するとまだ一定のギャップがありますが、短期的には ChatGPT のレベルに達するか、それに近づくことが期待できます。

AMDが先週、Nvidiaとの競争を目指してMI300シリーズのアクセラレータカードを発売したことは注目に値する。MI300 シリーズは、MI300A や MI300X など、AI およびハイパフォーマンス コンピューティング用の AMD の最新シリーズの APU アクセラレータ カードです。このうち、MI300A は CPU と GPU を統合し、MI300X は生成 AI 用に特別に発売されたアクセラレータであり、Nvidia H100 に対してベンチマークされます。性能パラメータの点では、MI300 シリーズ製品は Nvidia のハイエンド アクセラレータ カードと同等かそれを上回っていますが、一般的に、この分野における Nvidia の絶対的な主導的地位を短期的に揺るがすことは依然として困難です。

 

今年下半期に向けて、我が国の大型モデル製品は、当初は商業的な能力を達成しました。北京、上海、深センでの好ましい一般人工知能開発政策の発表は、我が国がAIGCの開発に重点を置き、支援していることを示しており、同時に他の都市が同様の政策を発行するデモンストレーション効果ももたらすだろう。政策と技術の共鳴のもと、我が国の AIGC 産業は将来の発展の幅広い展望を持っています。

 

現在、国内のLLMモデル関連技術と最先端技術との格差はさらに広がっています。Bert の登場から 1 ~ 2 年で、この分野の国内技術は急速に追いつき、同時にいくつかの優れた改良モデルが提案されています。差が広がる分岐点はGPT 3.0のリリース後、つまり2020年半ば頃になるはずだ。当時、GPT 3.0 が特定のテクノロジであるだけでなく、LLM が進むべき方向の開発コンセプトを反映していることに気づいていた人はわずかでした。

大規模言語モデル (LLM) は、自然言語処理 (NLP) および人工知能 (AI) の分野で広く注目を集めている、低コストで高効率な手法です。その中でもChatGPTはLLMの代表格としてNLPやAIの分野にパラダイムシフトをもたらした?「はい」の場合、どのような影響がありますか? LLM は、膨大なデータから学習することで豊富な知識を蓄積してきました。では、LLM はどのようにしてこの知識にアクセスするのでしょうか? LLM の規模が徐々に拡大するにつれて、研究や応用にどのような影響を与えるのでしょうか? また、In Context LearningはInstructと密接に関係する謎の技術です。LLM には推論能力がありますか? 思考連鎖(CoT)はどのように実現されるのでしょうか?次に、上記各態様について詳細に説明する。

 

LLM の背景、能力

1.LLMの背景

LLM (Large Language Model、ラージ言語モデル) とは、数千億以上のパラメーターを含む大量のテキスト データを使用してトレーニングされた言語モデルを指します。Transformer アーキテクチャと言語モデリングの事前トレーニング ターゲットを採用していますが、LLM モデルのサイズ、事前トレーニング データ、および総計算量は小規模モデルと比較して大きくなります。これにより、自然言語をより深く理解し、高品質のテキストを生成できるようになります。LLM の容量向上はスケーリング則によって部分的に説明できますが、一部の機能はモデル サイズが一定レベルを超えた場合にのみ観察されます。

2.LLMの創発能力

LLM の創発機能とは、小規模モデルには存在しないが、大規模モデルには現れる機能を指し、LLM を以前の PLM と区別する最も顕著な機能の 1 つです。スケールが一定のレベルに達すると、LLM のパフォーマンスはランダム状態のパフォーマンスよりも大幅に高くなり、この新しいモードは物理学における相転移現象と密接に関係しています。LLM の創発的な能力はいくつかの複雑なタスクに関連している可能性があり、人々は LLM の一般的な能力をより懸念しています。

LLM の 3 つの代表的な創発能力には、コンテキスト学習、指示に従って、段階的に推論することが含まれます。その中で、コンテキスト学習機能により、言語モデルは入力テキストの単語シーケンスを完成させることでテスト インスタンスの期待される出力を生成できるようになり、命令追従機能により、LLM は明示的なサンプルを使用せずにタスクの命令を理解して新しいタスクを実行できるようになります。 、それによって汎化能力が向上します。段階的な推論能力により、LLM は中間推論ステップを含むプロンプト メカニズムを利用して複雑なタスクを解決し、最終的な答えに到達することができます。

NLP 研究のパラダイムシフト

浅いセマンティクスから深いセマンティクスへのモデリング

過去 10 年間で、NLP の分野はおそらく 2 つの重要な研究パラダイム シフトを経験しました。

1. ディープラーニングから2段階の事前学習モデルへ

NLP 分野におけるディープラーニングの導入は、大まかに 2013 年から GPT 3.0 の登場 (2020 年 5 月頃) まで始まりました。Bert モデルと GPT モデルが登場する前、NLP 分野で人気のテクノロジーは主に深層学習モデルであり、主に特徴抽出器として改良された LSTM モデルと CNN モデルに依存し、全体的な技術フレームワークとして Sequence to Sequence + Attendance に依存していました。ただし、これらはモデルの深さを増やしますが、特定のタスクを解決するにはまだ十分ではありません。これは主に、タスク トレーニング データの量が限られていることと、LSTM/CNN 特徴抽出器の表現能力が不十分であることが原因です。

Bert と GPT という 2 つの事前トレーニング済みモデルが登場して初めて、これが NLP 分野における技術的飛躍を表し、この分野全体の研究にパラダイムシフトをもたらしました。このパラダイムシフトの影響は主に 2 つの側面に反映されています: 1 つは、技術的な側面での NLP 研究サブフィールドの衰退、または徐々に消滅です。

1. 一部の NLP 研究サブ分野の衰退、さらには徐々に消滅

NLP はマクロな研究分野の総称であり、その中にはさまざまな具体的なサブフィールドやサブディレクションがあり、そのタスクを注意深く分析すると、タスクの性質から中間タスクと最終タスクの 2 つに分類できます。タスク。

1) 中間タスク

典型的な中間タスクには、主に中国語の単語の分割、品詞のタグ付け、NER、構文解析、照応解析、セマンティック パーサーなどが含まれます。これらのタスクは通常、アプリケーションの実際のニーズを解決するものではなく、ほとんどが中間タスクとして使用されます。実際のニーズを解決するタスクのためのステージ、または補助ステージが存在します。たとえば、この文の構文解析ツリーをユーザーに表示するという構文パーサーの需要はほとんどなく、ユーザーはこれらの中間的な NLP 処理の結果を見る必要はなく、特定のタスクがうまく完了したかどうかだけを気にするだけです。

2) 最終ミッション

この種のタスク(テキスト分類、テキスト類似度計算、機械翻訳、テキスト要約など)は、各サブフィールドが特定の実際のニーズを解決し、タスク結果は基本的にユーザーに直接提示できるという事実によって特徴付けられます。たとえば、ユーザーが存在し、英語で文章を与えた場合、中国語が何であるかを教えてください。

「中間タスク」が出現しないのは当然であり、それが存在する理由は、NLP テクノロジーの開発レベルが十分に高くないためです。技術開発の初期段階では、当時の技術が比較的後進的だったため、難しい最終課題を一度に完了することが困難でした。機械翻訳など、初期のテクノロジーでは機械翻訳で適切な仕事をするのは非常に困難であるため、研究者は問題を分割して克服し、単語、品詞タグ付け、構文解析などのさまざまな中間段階に分解します。ピースを組み合わせて究極のミッションを完了しましょう。

Bert/GPT の登場以来、中間タスクを実行する必要がなくなりました。なぜなら、Bert/GPT は大量のデータの事前学習を通じて、これらの中間タスクを言語特徴として Transformer のパラメータに吸収しているため、現時点では、それらの最終タスクをエンドツーエンドで直接解決することが可能です。この中間プロセスであるモデリングに特化します。

2. 異なる研究方向における技術ルートの統一

NLP タスクは、「中間タスク」の他に、自然言語理解と自然言語生成の 2 種類に分類できます。自然言語理解タスクには、テキスト分類、文関係判断、感情傾向判断などの分類タスクがあり、モデルは入力テキストに応じてどのカテゴリに属する​​かを判断します。自然言語生成タスクには、チャットボット、機械翻訳、テキスト要約、質問応答システム、その他の生成タスクが含まれ、モデルは入力テキストに基づいて対応する出力テキストを生成します。

Bert/GPT モデルの出現以来、NLP 分野では技術統一の傾向があり、特徴抽出器は LSTM/CNN から Transformer に徐々に統一されています。ほとんどのタスクでは、事前トレーニング + 微調整またはゼロ/フューショットプロンプトモード。自然言語理解タスクにはBertに代表される双方向言語モデル事前学習+微調整モードが採用され、自然言語生成タスクにはGPT2.0に代表される自己回帰言語モデル+Zero/Few Shot Promptモードが採用されます。これら 2 つのモデルの背後にある開発アイデアと将来の開発の方向性は異なりますが、多くの人が GPT モデルの可能性を過小評価しています。GPT モードの自己回帰言語モデルは、高品質のテキストを生成でき、複数の自然言語生成タスクに適用でき、優れた移行能力を備えています。対照的に、Bert モードはタスク生成のパフォーマンスが悪く、微調整方法では大量のラベル付きデータが必要となるため、新しいタスクに適応するのは容易ではありません。

2. 事前学習モデルから汎用人工知能(AGI、Artificial General Intelligence)へ

このパラダイムシフトの対象となる時期は、おおよそ GPT3.0 の登場後、2020 年 6 月頃から現在まで続いています。ChatGPT 変換のキー ノードですが、InstructGPT が登場する前、LLM はパラダイム変換の過渡期にありました。

1. GPT 3.0に代表される「自己回帰言語モデル+プロンプト」モードが優位な位置を占める

事前トレーニング モデルの開発の初期段階では、技術フレームワークは 2 つの異なる技術パラダイム (Bert モードと GPT モード) に収束し、一般に人々は Bert モードについてより楽観的です。その後のかなりの数の技術的改善が、バートの道、歩きます。しかし、テクノロジーの継続的な開発により、最大の LLM モデルは、GPT 3.0 に似たほぼすべての「自己回帰言語モデル + プロンプト」モデルであることがわかりました (GPT-3、PaLM、GLaM、Gopher、Chinchilla、MT-NLG など) 、LaMDAなど)。なぜそうなるのでしょうか? その背後には必然性があるはずで、主に 2 つの理由があります。

 

1) Google の T5 モデル。自然言語理解と自然言語生成タスクの外部表現を形式で統合します。

上図に示すように、T5 モデルにおけるテキスト分類問題と、文の類似性を判断するための回帰または分類問題は、典型的な自然言語理解問題です。T5 モデルでは、これらの自然言語理解問題の入力および出力形式は生成問題と一致しており、分類問題は LLM モデルによって生成された対応するカテゴリの文字列に変換でき、完全な統一性を実現します。理解と生成課題の表現形式の変化。これは、自然言語生成タスクは自然言語理解タスクと表現的に互換性があるが、その逆は難しいことを示しています。この利点は、同じ LLM 生成モデルでほぼすべての NLP 問題を解決できることです。対照的に、Bert モードが依然として採用されている場合、LLM モデルは生成タスクをうまく処理できません。

2) ゼロショットプロンプトまたは少数ショットプロンプトで良い仕事をしたい場合は、GPT モードを採用する必要があります。

研究によると、ダウンストリーム タスクを微調整して解決する場合、GPT モードよりも Bert モードの方が優れていることがわかっています。ただし、下流タスクがゼロ ショット/少数ショット プロンプト モードで解決される場合、GPT モードの効果は Bert モードの効果よりも優れています。これは、生成モデルの方がゼロ ショット/少数ショット プロンプトのタスクを完了するのが容易であり、この方法でタスクを実行する場合、Bert モードには欠点があることを示しています。

ここで疑問が生じます。なぜゼロ ショット/少数ショットのタスク実行を促す方法を追求するのでしょうか? この問題を明確に説明するには、まず別の問題を理解する必要があります。それは、どのような種類の LLM モデルが最も理想的なのかということです。

 

LLM モデルの場合、まず第一に、強力な自己学習能力が必要です。世界中で利用可能なテキストや画像などのさまざまな種類のデータをすべてモデルに入力すると、そのモデルに含まれるすべての知識ポイントを自動的に学習できるはずです。学習プロセスには人間の介入は必要ありません。学んだ知識を柔軟に応用して実際の問題を解決できる。データが膨大なため、すべての知識を吸収するには、モデルに知識を格納するための多数のパラメーターが必要になるため、このモデルは巨大なモデルになる必要があります。

第二に、LLM モデルは、特定の限られた分野に限定されず、NLP のあらゆるサブフィールドの問題を解決できなければならず、NLP 以外の他の分野の問題にも対応できる必要があります。さらに、LLM モデルを使用して特定のドメインの問題を解決する場合、人間が慣れている表現を使用する必要があります。つまり、LLM は人間のコマンドを理解する必要があります。これは、人間を LLM モデルに適応させるのではなく、LLM を人間に適応させることを反映しています。LLM に対する人間の適応の典型的な例は、人々が目前の問題によりよく対処する適切なプロンプトを見つけるために、さまざまなプロンプトを試すために多大な労力を費やすことです。

タスクを解決するためにゼロ ショットまたは少数のショットを求める必要があるのはなぜでしょうか? 理由は主に 2 つあります。

1) 理想的な LLM モデルの規模は非常に大きくなければならず、このモデルを作成したり、モデルのパラメーターを変更したりできるのはごく少数の機関だけです。タスク要求者は何万人もおり、そのほとんどが中小規模の組織、さらには個人です。モデルがオープンソースであっても、モデルをデプロイすることはできず、ましてやモデルパラメータを変更するための微調整モードの使用もできません。 。したがって、タスクの要求者がモデルのパラメーターを変更せずにタスクを完了できる方法を追求する必要があります。つまり、タスクを完了するには、ファインチューニング モードではなくプロンプト モードを使用する必要があります。モデル メーカーは LLM をパブリック サービスとして使用し、サービスとしての LLM モードで動作します。

LLM モデルメーカーは、ユーザーニーズの多様化を考慮し、サービスを支援する側として、LLM ができる限り多くの業務を遂行できるようにすることを追求すべきであり、これは付随的効果であり、超大型モデルの現実的な要因でもある。確実にAGIを追求します。

2) LLM の推論能力を促進するゼロ ショット プロンプティング、少数ショット プロンプティング、あるいは思考の連鎖 (CoT、Chain of Thought) プロンプティングであっても、それらはすべて既存のテクノロジーの 1 つです。具体的には、ゼロショットプロンプティングの本来の意図は、人間が一般的に使用するタスク表現の方法でLLMに直接実行させることですが、LLMがよく理解できず、効果が良くないことがわかりました。研究を続けた結果、特定のタスクについて、LLM にいくつかの例を与え、これらの例を使用してタスクの説明を表現すると、ゼロ ショット プロンプトより効果が高いことがわかり、全員がより良い少数ショット プロンプト テクノロジを研究し始めました。 。

LLM が特定のタスクを実行するために人間が一般的に使用するコマンド方法を使用できることが望ましいことは理解できますが、現在のテクノロジーではそれができないため、次善の策は、人間のタスクのニーズを表現するためにこれらの代替テクノロジーを使用することです。上記のロジックを理解していれば、次の結論を簡単に導き出すことができます。フューショット プロンプティング (コンテキスト学習とも呼ばれます) は、単なる過渡的なテクノロジーです。タスクがより自然に記述され、LLM がそれを理解できるようになれば、これらの過渡期テクノロジーは間違いなく躊躇なく放棄されるでしょう。その理由は明らかです。タスク要件を記述するためにこれらの方法を使用することは、人間の使用習慣に適合しないからです。

2. LLMを人間に適応させる新しい対話型インターフェース

ChatGPT は、理想的な LLM モデルに最も近い、有能で共感的な技術的アプローチです。ChatGPT の強力な機能は、手動によるデータのラベル付けではなく、主に GPT 3.5 モデルによるものです。人為的にラベル付けされたデータが追加されていますが、これらのデータの規模はわずか数万であり、GPT 3.5 の基本機能の強化にはほとんど効果がありません。

ChatGPT の最大の貢献は、基本的に理想的な LLM のインターフェイス層を実現し、人々が LLM に適応するのではなく、LLM が人々の慣例的なコマンド表現に適応できるようにすることです。これにより、LLM の使いやすさとユーザー エクスペリエンスが向上し、人間の表現習慣により沿った、LLM と対話するヒューマン コンピューター インターフェイス テクノロジとなります。ChatGPT の技術的貢献は、確実に後続の LLM モデルにインスピレーションを与え、使いやすいマン マシン インターフェイスに関するさらなる研究を継続するでしょう。

3. 多くの NLP サブフィールドはもはや独立した研究価値を持たない

パラダイムシフトにより NLP 分野のパターンが変化し、多くの独立した研究分野が LLM 技術体系に組み込まれ、徐々に消滅することになります。多くの「中間タスク」は独立して存在する必要がなくなりましたが、「最終タスク」の多くは依然として独立したフィールドとして存在しますが、「事前トレーニング + 微調整」の枠組みの下で、新しい改善スキームが次々に提案されています。

研究によると、LLM モデルのサイズが大きくなるにつれて、多くの NLP タスクのパフォーマンスが大幅に向上することが示されています。したがって、多くの分野におけるいわゆる「特有の」問題は、ドメイン知識の欠如による外見上のものにすぎません。LLM がより多くの知識を学習できるように、より多くのドメイン データが LLM に提供される限り、これらの問題はうまく解決できます。今後の技術開発のトレンドは、LLM モデルのさらなる大規模化を追求し、事前学習データの多様性を高めることでより多くの分野をカバーすることになるはずです。研究の焦点は、特定の分野の特定の問題を解決することではなく、理想的な LLM モデルを構築する方法にあります。したがって、LLM テクノロジー システムに含まれる NLP のサブフィールドはますます増え、徐々に消滅していきます。

特定の分野で自主研究を直ちに中止する必要があるかどうかを判断するには、LLM の研究効果が人間の能力を超えているかどうかを判断する方法と、LLM の効果が人間の能力を超えている研究分野については、独立研究者が判断する方法の 2 つが考えられます。研究はもう必要ありません。2 番目は、2 つのモードのタスク効果を比較することです。少数ショット プロンプトまたは命令ベースの方法の効果が、より大きなフィールド固有のデータを使用した微調整の効果に達するかそれを超える場合、それは、このフィールドが効果を発揮しないことを意味します。独立して存在し続ける必要がある。

この推測が真実であれば、NLP 分野の多くの研究者がどこに進むべきかの選択に直面していることになりますが、彼らはこの分野の固有の問題に取り組み続けるべきでしょうか? それとも、このアプローチをあきらめて、代わりにより優れた LLM を構築しますか?

4. NLP以外の研究分野もLLM技術体系に含まれるようになる

理想的な LLM は一般的な人工知能モデルである必要があり、特定の主題領域に限定されるべきではありません。ChatGPT の出現は、AGI の追求の実現可能性を証明しており、今こそ「ドメイン規律」の思考上の制約を脇に置く時です。ChatGPT は、さまざまな NLP タスクでスムーズな対話フォームを表示するだけでなく、強力なコーディング機能も備えています。

 

LLM 技術は外側に拡大しており、自然な方向性の 1 つは画像処理とマルチモーダル タスクです。DeepMindのFlamingoやMicrosoftの「Language Models are General-Purpose Interfaces」など、マルチモダリティをLLMに統合して一般的なヒューマンマシンインターフェースの機能を実現しようとする取り組みはすでにいくつかある。

画像フィールドの事前トレーニング モデルを下流タスクに適用する効果は、NLP フィールドの事前トレーニング モデルよりもはるかに重要ではありません。これは、画像前処理モデルをまだ深く調査する必要があるためと考えられます。画像データの可能性を解き放ちます。したがって、画像処理分野の LLM への統合は想像よりも遅れる可能性があります。もちろん、画像フィールドの事前トレーニング済みモデルが渡された場合、NLP フィールドの状況と同様に、それらは大規模な LLM に統合されて最終タスクを直接完了する可能性があります。

画像とマルチモダリティに加えて、価値の高い研究テーマである他の領域も徐々に LLM に組み込まれる予定です。パラダイム シフトに関する私の個人的な考えは、LLM テクノロジーの主な技術的進歩は 2 つのカテゴリーに分類できることを示しています。1 つは、LLM モデルがデータから知識をどのように吸収するかに関するもので、もう 1 つは、LLM の吸収能力に対するモデル スケールの増大の影響も含まれます。知識。2 番目のカテゴリは、コンテキスト学習や指示などのタスクを解決するために人々が LLM の本質的な能力をどのように使用するかに関するヒューマン マシン インターフェイスです。LLM 推論手法の 1 つである思考連鎖 (CoT) プロンプトも、本質的には In Context Learning に属します。

無限のデータから膨大な知識を導き出す

現在の研究結果は、Transformer が特徴抽出器として十分強力であり、特別な改良を必要としないことを示しています。事前トレーニング プロセスにより、Transformer は何を学習できましたか? 知識はどのように保存されるのでしょうか? 間違った知識を正すにはどうすればよいでしょうか?これらの疑問が現在の研究の焦点です。このセクションでは、この分野における研究の進捗状況について説明します。

1. LLM が学んだ知識

LLMは膨大なフリーテキストを学習することで多くの知識を獲得しますが、その知識は大きく分けて「言語知識」と「世界知識」の2つに分けられます。言語知識には形態論、品詞、構文、意味論が含まれており、人間や機械が自然言語を理解するのに役立ちます。研究によると、LLM はさまざまな階層タイプの言語知識を学習でき、これらの知識は Transformer の下位層と中間層に保存されます。世界知識には、現実の出来事(事実知識)と常識知識(Common Sense Knowledge)が含まれます。

研究によると、LLM はトレーニング データから大量の世界の知識を吸収することができ、この知識は主に Transformer の中層と上位層に分散されており、モデル層の数が増加するにつれて、学習できる知識の量は徐々に増加します。指数関数的に。Bert 型の言語モデルの場合、構文や意味論などの言語知識は 1,000 万語から 1 億語のコーパスだけで十分に学習できますが、事実の知識を学習するにはより多くのトレーニング データが必要です。トレーニング データの量が増加するにつれて、事前トレーニングされたモデルはさまざまな下流タスクでパフォーマンスが向上します。これは、増分トレーニング データから学習されるのは主に世界の知識であることを示しています。

2. LLM が知識にアクセスする方法

LLM は、Transformer 構造に基づいた言語モデルであり、大量のフリーテキストから豊富な言語クラスと世界の知識を学習できます。しかし、特定の知識について、LLM はどのようにしてそれを保存し、抽出するのでしょうか? Transformer の構造の観点から見ると、モデル パラメータは 2 つの部分で構成されます。マルチヘッド アテンション (MHA) 部分はパラメータ全体の約 3 分の 1 を占め、パラメータの 3 分の 2 は FFN 構造に集中しています。

FFN の最初の層は、MLP 幅の隠れ層 (キー層) であり、2 番目の層は MLP の狭い隠れ層 (値層) です。FFN の入力層は実際には、ある単語に対応する MHA の出力結果 Embedding、つまり文全体に関する入力コンテキストを Self Attendance によって統合した Embedding であり、入力文全体の全体的な情報を表します。

Key レイヤーの各ニューロン ノードは、<Key, Value> 情報のペアを記録します。たとえば、FFN の最初の隠れ層の i 番目のノード ki については、<Beijing, is-capital-of, China> の知識が記録される可能性があります。ki ノードに対応する Key ベクトルは、実際にはノード ki と入力層の各ノードの重みベクトルを指し、対応する Value ベクトルはノード ki と Value 層の各ノードの間の接続の重みベクトルを指します。 FFN の第 2 層の。

各ニューロンのキー ベクトルは、入力内の特定の言語または知識パターンを識別するために使用され、パターン検出器となります。入力に検出したい特定のパターンが含まれている場合、入力ベクトルと ki ノードのキーの重みがベクトルの内積に対して計算され、Relu が加算されて ki の大きな値の応答が形成されます。これは、ki がはこのパターンを検出したため、応答値は ki ノードの値重みベクトルを通じて FFN の 2 番目の層に伝播されます。これは、Value ベクトルの値を応答値で重み付けし、それを 2 番目の層の Value 層の各ノードの出力に渡して反映することと同じです。

このように、FFN の順伝播計算プロセスは、Key を通じて特定の知識モードを検出し、対応する Value を取り出し、その Value を FFN の第 2 層の出力に反映するように見えます。もちろん、FFN の第 2 層の各ノードは FFN の Key 層のすべてのノード情報を収集するため、混合応答となり、Value 層のすべてのノードの混合応答は確率分布情報として解釈できます。出力ワードを表します。FFNをKey-Valueメモリとして扱うという考え方は最終的な正解ではないかもしれませんが、最終的な正解までの距離はそれほど遠くないと推定されます。

3. LLM に保存された知識を変更する方法

自然言語処理に LLM を使用する場合、古い知識や間違った知識に遭遇する可能性があります。この問題に対処するには、3 つの異なるアプローチを使用して、LLM に保存されている知識を修正できます。

1. トレーニングデータのソースからの正しい知識

知識の一部に対応するトレーニング データのソースを追跡することにより、どのデータが LLM に知識を学習させるかを特定します。次に、データ ソースを削除し、LLM 内の関連知識を削除するという目的を達成するために LLM モデル全体を再トレーニングします。ただし、この方法は、少数対多数の共通知識修正シナリオには適用できません。

2. 微調整による正しい知識

修正する新しい知識に従ってトレーニング データを構築し、LLM モデルにトレーニング データの微調整を行わせて、LLM が新しい知識を記憶し、古い知識を忘れるように導きます。しかし、忘れるべき知識は忘れ、忘れてはいけない知識も忘れてしまうという現象が起こり、その後の一部の下流業務の効果が低下してしまうことがあります。さらに、コストもかなり高くなります。

3. LLM のモデルパラメータを直接変更して知識を修正します。

知識が保存されている特定の場所を特定することにより、FFN 内の対応するモデル パラメーターが強制的に調整され、古い知識が新しい知識に置き換えられます。ただし、このアプローチでは 2 つの重要な問題に対処する必要があります。まず第一に、LLM パラメータ空間内の知識の特定の保存場所を見つける方法を知る必要があります。第二に、古い知識を新しい知識に変更するためにモデルのパラメーターを変更する方法を知る必要があります。

LLM の知識を改訂するプロセスを理解することは、LLM の内部動作をより深く理解するのに役立ちます。3 つの方法にはそれぞれ長所と短所がありますが、いずれも LLM の古い知識や間違った知識を修正し、自然言語処理タスクにおける LLM のパフォーマンスを向上させるのに役立ちます。

LLM がどんどん大きくなると何が起こるか

近年、LLM モデルの規模は拡大し続けており、現在、最も効果的な LLM モデルのパラメータ スケールは 1,000 億 (100B) を超えています。たとえば、OpenAI の GPT-3 の規模は 175B、Google の LaMDA の規模は 137B、PaLM の規模は 540B、DeepMind の Gogher の規模は 280B です。中国には130B規模の清華&芝浦GLM、200B規模のファーウェイの「Pangu」、260B規模のBaiduの「Wenxin」、260B規模のInspurの「Yuan 1.0」などの中国製の巨大モデルもある。 245Bの。

そこで問題は、LLM モデルのサイズが増大し続けると何が起こるかということです。事前トレーニング モデルの適用は、多くの場合、事前トレーニング段階と特定のシーンの適用段階の 2 段階で行われます。トレーニング前の段階では、LLM モデルの最適化目標はクロス エントロピーであり、GPT のような自己回帰言語モデルの場合、LLM が次の単語を正しく予測するかどうかを確認することです。シーン適用段階では、一般に特定のシーンの評価指標に依存します。一般に、事前トレーニング段階での LLM モデルの指標が優れているほど、下流のタスクを解決する能力が強化されます。しかし、必ずしもそうではありません。

既存の研究では、トレーニング前段階の最適化指標が下流のタスクと正の相関を示すことは示されていますが、完全ではありません。つまり、トレーニング前の段階で指標を見るだけでは、LLM モデルが十分に優れているかどうかを判断するのは十分ではありません。したがって、事前トレーニング段階と適用段階の両方でモデルを十分に評価し、テストする必要があります。

OpenAI と DeepMind の研究によると、トレーニング前の段階では、トレーニング データとモデル パラメーターの量を同時に増やすことが最適な選択であり、どちらか一方だけを増やすだけでは十分ではないことが示されています。DeepMind は、トレーニング データとモデル パラメーターの量は同等に重要であるため、同じ割合で増やす必要があると考えています。たとえば、LLM をトレーニングするための総計算能力予算が 10 倍に増加する場合、モデルが最適に機能するためには、モデル パラメーターの量とトレーニング データの量を 3.3 倍に増やす必要があります。チンチラ モデルの場合、トレーニング データを 4 倍に増やすことを選択しますが、モデル パラメーターは Gopher の 4 分の 1、つまり約 70B に削減されます。この結果、チンチラは、トレーニング前の指標と多くの下流タスクの指標において、大型の Gopher よりも優れたパフォーマンスを発揮します。これは、モデル効果を低下させることなくモデル サイズを大幅に縮小するという目的を達成するために、トレーニング データを拡大し、同じ割合で LLM モデル パラメーターを削減することを選択できることを示しています。

下流の特定のタスクの解決に対する LLM の効果の観点から見ると、モデルのサイズが大きくなるにつれて、タスクの種類が異なればパフォーマンスも異なります。たとえば、言語モデルの複雑さなどの単純なタスクの場合、モデルのサイズが大きくなるにつれて、モデルの効果は向上し続けます。OpenAIの研究では、トレーニングデータの量が12Bから800Bに増加すると、GPT-3モデルのパープレキシティは3.15から1.28に減少します。

質問応答やテキスト分類など、中程度の難易度のタスクでは、モデルのサイズが大きくなるにつれて、モデルの効果は最初は増加し、その後安定します。OpenAIの調査では、トレーニングデータの量が12Bから800Bに増加すると、LAMBADAやSuperGLUEなどのタスクにおけるGPT-3モデルのパフォーマンスは向上しましたが、その向上率は徐々に低下しました。機械翻訳や意味理解などの複雑なタスクの場合、モデルのサイズが大きくなるにつれて、モデルの効果は最初に増加し、その後飽和するかわずかに減少するように見えます。Google の調査では、モデル パラメータの数が 1558M から 137B に増加すると、BLEU スコアは 36.8 から 37.5 に増加しましたが、モデル サイズがさらに増加すると、BLEU スコアはわずかに減少しました。したがって、LLM モデルのサイズを選択するときは、最高のモデルのパフォーマンスを得るために、特定のタスクの難易度や要件に応じてさまざまな要素を総合的に考慮する必要があります。

 

最初のタイプのタスクは、LLM モデルのスケーリング則を示しています。つまり、モデルのサイズが大きくなるにつれて、タスクのパフォーマンスはますます向上します。このようなタスクは通常、知識集約的なタスクであり、LLM モデルに含まれる知識が増えるほど、タスクのパフォーマンスが向上します。研究によると、同じ量のトレーニング データでも大規模な LLM モデルの学習効率が高くなるほど、大規模なモデルはより多くの知識ポイントを学習できることが示されています。従来の自然言語理解タスクの多くはこのタイプに属しますが、LLM モデルの規模が大きくなったためか、この 2 年間でこれらのタスクの効果は大幅に向上しました。

2 番目のタイプのタスクは、LLM が特定の「緊急能力」を備えていることを示しており、モデル サイズが特定のしきい値に達すると、このタイプのタスクに対する LLM モデルの効果が急激に向上します。この「創発機能」が LLM モデル規模の成長の鍵であり、モデル規模が大きくなるにつれて、LLM モデルは徐々に新しい機能を解放していきます。この現象は驚くべきものです。なぜなら、たとえ LLM モデルが現在一部のタスクをうまく解決できなくても、モデルを推進し続ければ、ある日突然その能力が解放されるかもしれないからです。これらのタスクは一般に複数のステップで構成されており、最初に複数の中間ステップを解決する必要があり、そのようなタスクの最終的な解決には論理的推論能力が重要な役割を果たします。思考連鎖プロンプトは LLM の推論能力を強化する代表的な技術であり、このようなタスクの効果を大幅に向上させることができます。LLM がなぜこのような「創発能力」現象を起こすのかについては、さらなる研究が必要です。

 

また、タスク効果曲線にはU字型の特徴を示すものもあります。つまり、モデル規模が大きくなるにつれてタスク効果は徐々に悪化しますが、モデル規模がさらに大きくなると効果は改善し始め、U字型の成長傾向を示します。 。これらのタスク内には暗黙的に 2 つの異なるタイプのサブタスクが存在します。1 つは実際のタスクで、もう 1 つは「干渉タスク」です。モデルのサイズが小さい場合、サブタスクを識別することは不可能であるため、モデルのパフォーマンスはランダムに回答を選択する場合と同様になります。

モデルが中規模に成長すると、主に干渉タスクを実行するため、実際のタスク効果に悪影響があり、実際のタスク効果の低下に反映されます。モデルのサイズがさらに大きくなると、LLM は気が散るタスクを無視して実際のタスクを実行できるようになり、効果が増大し始めます。Chain of Thinking (CoT) プロンプトが採用されている場合、一部のタスクのパフォーマンスはスケーリング則に従うように変換されます。つまり、モデル サイズが大きいほど効果が向上しますが、他のタスクは U 字型に変換されます。成長曲線。これは、このタイプのタスクは推論型タスクに属し、CoT を追加するとタスクのパフォーマンスが質的に変化することを示しています。

状況に応じた学習から理解を指導するまで

人間と LLM の間で一般的に言及されるインターフェイス テクノロジには、Instruct および In Context Learning が含まれます。Instruct は ChatGPT のインターフェースメソッドで、「この文章を中国語から英語に翻訳してください」などのタスクを自然言語で説明します。コンテキスト学習と少数ショット プロンプトでは同様の意味があり、LLM にモデルとしていくつかの例を与え、LLM に新しい問題を解決させます。

これらのテクニックはすべてタスクを記述する方法ですが、実際には考え方が異なります。指示は抽象的な説明方法ですが、コンテキスト学習は例によって説明する方法です。名前はやや紛らわしいですが、これら 2 つの手法は人間と LLM にとって最も一般的なインターフェイス手法です。以下では、ゼロショットと少数ショットについては触れずに、命令学習とコンテキスト学習に焦点を当てます。

1. 神秘的な In Context Learning

In Context Learning は非常に魔法のテクノロジーです。これが魔法である理由は、LLM にいくつかのサンプル例 <x1,y1>、<x2,y2>....<xn,yn> を提供し、新しい入力 xn+1 を与えるだけで済むためです。 LLM は成功します。対応する出力 yn+1 を予測します。これは微調整に似ていますが、実際にはより複雑です。

Fine-tuning と In Context Learning はどちらも LLM にいくつかの例を提供しているように見えますが、この 2 つの間には質的な違いがあります。Fine-tuning では、これらのサンプルを学習データとして使用し、バックプロパゲーションによって LLM のモデル パラメーターを修正することで、サンプルから LLM を学習するプロセスを実現します。また、In Context Learning は単に例を示し、LLM に新しい例を予測するように依頼し、モデル パラメーターを修正するためにバックプロパゲーションを使用しません。つまり、学習プロセスを経験していないようです。ただし、コンテキスト学習では、一目見ただけで新しい例を予測できます。

現在、この問題に関して異なる見解を提示した研究がいくつかありますが、それらの研究の間では矛盾した結論があります。この問題の真相は未だに解明されていない謎です。一部の研究では、コンテキスト学習は例からマッピング関数を学習するのではなく、入力と出力の分散を通じて予測を達成すると考えています。他の研究では、LLM は依然として例からマッピング関数を学習しますが、このプロセスは暗黙的であると主張しています。

2. 魔法の指示の理解

Instruct は人間の理解のためのタスク表現です。この前提に基づいて、現在のインストラクトの研究は 2 つのカテゴリに分類できます。1 つは学術研究に偏ったインストラクト、もう 1 つは人間の現実のニーズの記述に焦点を当てたインストラクトです。

まず、学術研究に偏った Instruct を見てみましょう。この分野の中心的な研究トピックは、マルチタスク シナリオでの命令を理解するための LLM モデルの一般化機能です。この方法では、複数の NLP タスクを使用します。各タスクには 1 つ以上のプロンプト テンプレートが指示として含まれ、トレーニング データを使用して LLM モデルを微調整し、複数のタスクを同時に学習できるようにします。

モデルをトレーニングした後、LLM モデルに新しいタスク Instruct を与え、LLM にゼロ ショット タスクを解決させて、LLM モデルが Instruct する一般化能力があるかどうかを判断します。現在の研究では、マルチタスクの数の増加、LLM モデルのサイズの増加、CoT プロンプトの提供、タスクの多様性の増加などの要因により、LLM モデルの命令を理解する能力を効果的に高めることができることが示されています。

2 つ目は人間の真のニーズを重視した Instruct であり、このタイプの研究は InstructGPT や ChatGPT に代表されます。この方法もマルチタスクに基づいていますが、学術研究に偏った方法との最大の違いは、現実のニーズを重視していることです。研究タスクの範囲を固定して研究者にタスク説明プロンプトを作成させるのではなく、LLM マルチタスク トレーニング用に多数のユーザーから送信された実際のリクエストからサンプリングされたタスク説明プロンプトを使用します。

この方法の利点は、ユーザーの実際のニーズにより一致する、より多様なタスクの種類をカバーできることです。同時に、タスクの迅速な説明は、ユーザーが送信したリクエストから得られ、実際のニーズを反映していることです。タスクの要求を表現するときのユーザーの表現。したがって、この方法でトレーニングされた LLM モデルは、ユーザーのニーズをより適切に満たすことができます。InstructGPT の論文では、この手法を学術研究に偏った FLAN 手法と比較しています。結果は、FLAN 法の効果が InstructGPT の効果とは程遠いことを示しています。これは、FLAN メソッドが関与するタスク ドメインが比較的少ないのに対し、InstructGPT で使用されるタスク タイプはより多様で、ユーザーの実際のニーズにより一致しているためです。したがって、LLM モデルの効果を高めるためには、ユーザーデータから真のニーズを収集することが非常に重要です。

3. In Context Learning と Instruct の関係

コンテキスト学習では、いくつかの具体的な例を通じてタスクのコマンドを表現するものと見なすことができますが、指示は人間の習慣により近い抽象的なタスクの説明です。これにより、当然の疑問が生じます。これら 2 つのアプローチには関連性があるのでしょうか? たとえば、特定のタスクを完了するために自然言語で記述された対応する指示コマンドを LLM に見つけさせるための具体的な例をいくつか提供していただけますか?

現在、表現タスクの例と自然言語コマンドとの関係を調査する研究が行われており、この方向性には高い研究価値があります。この質問に対する答えは「はい」です。LLM は確かにこのタスクを達成できます。最近の研究では、GPT-3 と InstructGPT を基本モデルとして使用し、LLM に自然言語コマンドを生成させて、いくつかの具体的な例を通じてタスクを説明し、この記述を使用してタスクの効果をテストしました。このテクノロジーの恩恵により、LLM によって生成される指示効果が大幅に向上し、一部のタスクでは人間のパフォーマンスを超えました。これは、比喩的なタスクの例と自然言語コマンドの間に不思議な本質的なつながりがあることを示していますが、現時点ではこのつながりの正確な性質を判断することはできません。

LLMの推論能力を高めるには

現在、LLM は記憶力が強いことが多くの研究で示されていますが、推論能力が人間かどうかを判断する重要な基準となることが多いため、記憶力が強いからといってその人が頭が良いとは通常は考えられません。賢いかどうか。したがって、LLM には強力な推論スキルも不可欠です。ここ 1 年で、LLM の推論能力は最も重要かつ注目の研究分野の 1 つになりました。現在の研究では、モデルのサイズが十分に大きい場合、LLM 自体に推論能力があり、単純な推論問題では優れた能力を達成していますが、複雑な推論問題についてはさらに詳細な研究が必要であることが示されています。

LLM の推論能力の研究は、Prompt に基づく方法とプログラムコードを導入する方法の 2 つに分類できます。プロンプトベースの手法は、適切なプロンプトやプロンプト サンプルを通じて LLM 自体の推論能力を刺激します。Google はこの方向で多くの実りある取り組みを行ってきました。プログラムコードの導入方法は、OpenAIで実践されている考え方であるLLMの推論能力をさらに高めるため、事前学習プロセスで事前学習コードとテキストを一緒に導入する方法です。これら 2 つの手法の全体的な方向性は大きく異なります。前者は多様なトレーニング データを提供することで LLM の推論能力を直接強化するものですが、後者は問題を解決する過程で LLM の推論能力をより適切に発揮できるようにするための技術的な手法です。2 つのアプローチは補完的ですが、長期的には根本原因の方が重要です。

まとめると、技術的には大きく3つのルートに分けられます。

 

1. 補助推論プロンプトを質問に直接追加します。

さまざまな分野で、プロンプトベースの方法が LLM の推論能力を強化する効果的な方法であることが証明されています。この方法は非常に簡単で、質問に補助推論プロンプトを追加するだけです。中でもZero-shot CoTは、質問文に「ステップバイステップで考えてみましょう」というプロンプトを加えることでLLM自体の推論能力を刺激する手法で、よく使われています。

具体的には2段階に分かれており、第1段階では質問にプロンプ​​トを追加してLLMが具体的な推論過程を出力し、第2段階ではLLMが出力した具体的な推論過程をつなぎ合わせてPromptを追加します。この時点で、LLM が答えを返します。この単純な操作により、さまざまな推論タスクにおける LLM の効果を大幅に高めることができます。LLMがなぜ推論能力を持つのかについては現時点で結論は出ていませんが、おそらく事前学習データに「ステップバイステップで考えてみましょう」で始まるデータが多く、LLMが事前学習中にこれらのパターンを記憶しているためと考えられます。 。

したがって、このプロンプトを入力すると、LLM はこれらの例を模倣して段階的に推論し、回答を返します。もちろん、LLM リコールの例に基づいて精度がそれほど高くないと推定されるため、ゼロショット CoT の効果は標準 CoT の効果よりも悪いです。しかし、Zero-shot CoT であれ、標準 CoT であれ、それは真実を示しています。つまり、LLM 自体には推論能力がありますが、その能力を刺激する方法がありません。

2. 例ベースの思考連鎖 (少数ショット CoT、思考連鎖) プロンプト

現在、プロンプトベースの手法が LLM 推論研究の主な方向性となっており、この考え方に基づいて多くの研究が行われています。この方向では、いくつかの代表的な研究が顕著な成果を上げており、これらの研究は基本的に CoT 技術の発展方向を表すことができます。

 

CoT の主なアイデアは非常にシンプルかつ明確です。LLM モデルが推論を学習するには、手動で記述された推論の例をいくつか提供する必要があります。例では、最終的な答えを得る前の特定の推論手順が詳しく説明されています。手作業で書かれた詳細な推論プロセスは思考の連鎖です。CoT の目的は、推論のプロセスでは段階を踏みすぎてはならず、大きな問題を小さな問題に段階的に変え、小さな勝利を大きな勝利に積み重ねる必要があることを LLM モデルに理解させることです。CoT の概念を明確に提案した最も古い論文は、2022 年 1 月に公開された「思考の連鎖プロンプトが大規模言語モデルにおける推論を引き出す」です。CoT の手法は非常に単純ですが、CoT の適用後、LLM モデルの推論能力は大幅に向上し、GSM8K 数的推論テスト セットの正解率は約 60.1% まで増加しました。詳細な推論ステップと中間プロセスを与えるというこのアイデアは、CoT によって最初に提案されたものではないことは言及する価値があります。以前の「スクラッチパッド」テクノロジーでも同様のアイデアが使用されていました。

 

CoT が提案されてから間もなく、2022 年 3 月に「自己一貫性」と呼ばれる改良された技術がすぐに登場し、GSM8K テスト セットの精度が 74.4% に向上しました。この改良された技術のアイデアも非常にシンプルかつ明確で、まず CoT を使用して推論プロセスのいくつかの例を示し、次に LLM に与えられた問題について推論してもらいますが、CoT とは異なり、「自己一貫性」には LLM が必要です複数の異なる推論プロセスと回答を出力し、最良の回答に投票します。この考え方により、LLM は数学の問題には多くの正解があり、それぞれの異なる導出プロセスが最終的な答えを示しているという真実を学ぶことができます。単純な方法には、多くの場合、深い哲学的意味が含まれています。その後、「自己一貫性」に基づいて、「言語モデルのより良い推論の推進について」という著作で、「1 つのプロンプト質問から複数のプロンプト質問への拡張、推論の中間ステップの正しさのチェック、および複数のプロンプト質問への拡張」がさらに統合されました。 - 3 つの改善点、各出力の回答の重み付け投票により、GSM8K テスト セットの精度が約 83% に向上しました。

 

3. 分割統治アルゴリズム

中心となるアイデアは、複雑な推論問題を解決しやすいいくつかのサブ問題に分解し、これらのサブ問題を解決して、サブ問題の答えから複雑な問題の答えを導き出すことです。この種の考え方は、問題の本質を明らかにし、LLM の複雑な推論問題を最終的に解決するための真の方法である可能性があります。「最も少ないプロンプトから最も多いプロンプトへのプロンプト」手法を例に挙げると、それは 2 つの段階に分かれています。最初の段階では、元の質問から最終的な質問を取得し、プロンプト テンプレートを構築し、「最終 Q の問題を解決したい場合は、最初にそれを解決する必要があります」という内容を入力します。 LLM モデルに答えさせ、事前プロンプトのサブ質問 Sub Q を取得します。第 2 段階では、LLM に最初にサブ質問 Sub Q に回答させ、対応する回答を取得してから、元の質問、サブ質問 Sub Q、対応する回答をつなぎ合わせて、LLM に最後の質問をします。最終 Q、この時点で LLM が最終的な答えを出します。このアイデアは、分割統治アルゴリズムのアイデアと同様に、部分問題を解体し、部分問題に対する答えから最終的な答えを徐々に見つけるというアイデアを具体化しています。

コードの事前トレーニングにより LLM 推論能力が強化されます

LLM モデルの推論能力を刺激するために Prompt を使用する 3 つの主流の方法を前述しましたが、同時に、テキストに加えて、プログラム コードと、このテキストにより、LLM モデルの推論能力が大幅に向上します。

論文「言語モデルのより優れた推論の進歩について」では、実験データを通じて興味深い現象が示されています。プログラム コードとテキストを使用したモデルの事前トレーニングに参加すると、LLM モデルの推論能力が大幅に向上する可能性があります。実験結果は、プレーン テキストの事前トレーニング モデルからテキストとコードの混合事前トレーニング モデルに切り替えるだけで、ほぼすべてのテスト データ セットでモデルの推論能力が 20 ~ 50 パーセント ポイント改善できることを示しています。

さらに、この研究では、GPT 3 の平文事前トレーニング モデルが実際にはかなりの推論能力を備えているが、適切な方法で刺激する必要があることも判明しました。命令微調整を追加すると、LLM モデルの推論能力は損なわれますが、自然言語理解能力はある程度向上します。事前トレーニング モデルがコードの事前トレーニングから追加の推論機能を取得できる理由については、正確な理由はまだ得られていませんが、コード トレーニングが本質的に 2 つのタイプのマルチモーダル調整であるためである可能性があります。 data <text, Code>。かなりの割合の数学的または論理的推論を含むデータは、下流の数学的推論の問題を解決するのに役立ちます。これらの結論は、将来のさらなる思考と探求を刺激します。

LLMの推論能力についての考察

この 1 年で、LLM の推論能力を刺激する技術は急速に進歩しましたが、全体としては、問題の本質に迫り、さらに深く考えて探求するまでにはまだ長い道のりがあると感じています。が必要です。複雑な推論質問の場合、LLM ではサブ質問のほうが正解する可能性が高いため、いくつかの単純なサブ質問に分解されます。「最小から最大へのプロンプト」テクノロジーに触発された LLM 推論は、本質的には、LLM と継続的に対話するグラフ推論問題、または LLM と継続的に対話するプログラム フローチャートの実行問題である可能性があります。

複雑な問題をサブ問題またはサブステップで構成されるグラフ構造に分解できるとします。ノードはサブ問題またはサブステップを表し、エッジはサブ問題間の依存関係を表します。依存関係に従って、最終的な答えが導き出されるまで、段階的に答える必要があるサブ質問に答えるように LLM をガイドできます。グラフには循環構造が存在する場合があります。つまり、一部のサブステップを繰り返し実行する必要があります。上記の部分問題分解図を取得できれば、LLM に推論を効果的に導くことができます。

複雑な問題をサブ問題またはサブステップに分解し、ループ構造と条件分岐を備えたプログラム フローチャートのような構造を生成できたとします。各サブステップの実行時に LLM と対話し、サブステップの答えを取得し、最終的な答えが出力されるまでプロセスに従って実行を続けることができます。このマルチモーダル事前トレーニング モデルは、テキストから暗黙的なフローチャートを構築し、フローチャートに従って実行する LLM モデルの能力を強化し、それによって推論能力を強化します。

しかし、テキスト記述からグラフ構造やフローチャート構造をどのように求めるかは依然として難しい点である。考えられるアイデアの 1 つは、強化されたテキストと高品質のコードの事前トレーニングを通じて、内部の暗黙的な構造を暗黙的に学習することです。現在の CoT 技術は、最後のグラフ ノードに基づいてグラフ構造またはプログラム フローチャートを推定しようとしますが、現在の方法では後方推定の深さに制限があり、単純なグラフ構造しか推定できないため、能力が限られています。

LLM 研究の傾向と研究に値する重要な方向性

ここでは、深く調査する価値のある LLM の重要な研究分野または研究の方向性をいくつか紹介します。

1. LLM モデルのスケール上限を探る

LLM モデルのスケールには技術的な内容はないようですが、実際には非常に重要です。Bert の登場以来、GPT 3 と ChatGPT の印象的な重要な技術的進歩に至るまで、核となる貢献はすべて、特定のテクノロジーではなく、LLM モデル スケールの成長によってもたらされました。これは、知識集約型タスクの場合、モデルのサイズが大きくなるにつれて、さまざまなタスクの効果がますます良くなることを示しています。推論タイプの多くの困難なタスクでは、CoT プロンプトを追加した後、その効果はスケーリング則に従う傾向も示します。したがって、当然の疑問は次のとおりです。これらのタスクについて、LLM のスケール効果はどの程度までこれらのタスクを解決できるでしょうか?

LLM の魔法の「創発能力」を考慮して、モデルのサイズを拡大し続けた場合、どのような予期せぬ新機能が解放されるでしょうか? これも興味深い質問です。したがって、さまざまな課題を解決するには、モデル サイズの上限がどこにあるのかを確認するために、モデルのサイズを継続的に増加する必要があります。もちろん、このようなことは99.99%の実践者にはそれを行う機会も能力も無いとしか言​​えません。

そのためには極めて高い資金力と研究機関の投資意欲、エンジニアリング能力、技術的熱意が不可欠です。概算によると、これを行うことができる機関は海外では 5 機関、中国では 3 機関しかありません。これは、超大規模な LLM モデルの作成には、技術チームの非常に高度なエンジニアリング実装能力が必要であり、非常に強力なハードウェアおよびソフトウェアのサポートが必要であるためです。したがって、これは技術的な作業です。

それにもかかわらず、LLM モデルのサイズを拡大し続ける研究の意義は依然として非常に重要です。LLM のスケール効果がさまざまなタスクの効果にどの程度影響するかを調査することに加えて、LLM モデルのスケールが増加したときにどのような新しい機能が解放されるかを調査することもできます。これらの質問に対する答えは、LLM モデルの性質と動作をより深く理解するのに役立ち、将来の研究と応用のための重要な参考資料となります。したがって、有能な研究機関にとって、LLM モデルの規模で研究を拡大し続けることは非常に価値があります。

2. LLM の複雑な推論能力を強化する

LLM の推論能力について前述したように、LLM は過去 1 年間で推論能力において大きな進歩を遂げましたが、依然としていくつかの限界があります。たとえば、多くの研究では、LLM は依然として複雑な推論問題をうまく解決できず、特に長い文字列や数値が含まれる場合、LLM の推論能力が大幅に低下することが示されています。したがって、LLM の複雑な推論能力を強化することは、今後の研究の焦点の 1 つになるはずです。

前回の記事では、LLMの推論能力を直接強化する方法として、事前学習にコードを追加する方法について触れました。この方法はいくつかの実践によって要約されていますが、LLM の推論能力を強化するには、基礎となる原理を深く調査し、より多くの種類の新しいデータを導入する必要があります。これはコードの追加に限らず、LLMの推論能力を向上させるためのより本質的な方向性かもしれません。

3. LLM には NLP 以外にも多くの研究分野が組み込まれています

現在の ChatGPT は、自然言語処理 (NLP) およびプログラミング タスクで優れたパフォーマンスを発揮するモデルです。汎用人工知能 (AGI) につながる最先端の研究の 1 つとして、画像、ビデオ、音声などのマルチメディア データと言語モデルを組み合わせ、科学研究やロボット制御などの他の分野への AI のさらなる応用が挙げられます。より広い範囲のアプリケーションと差別化された開発を実現するための重要なパス。この研究方向はまだ初期段階にありますが、非常に高い研究価値があります。

4. 人々とLLMの間のより使いやすい対話型インターフェース

前に説明したように、ChatGPT の主な技術的貢献は、NLP やプログラミング タスクなどの特定のドメインでの優れたパフォーマンスにあります。しかし、現在のテクノロジーはまだ不完全であり、LLM が理解できないコマンドや命令が多数あることも認識しています。したがって、非常に有望で新しい技術的方向性は、人間が独自の慣習的なコマンド表現を使用する方法を LLM が理解できるようにする、より良い方法を見つけることです。この方向の探求は私たちに新たな機会を生み出し、LLM の最先端技術を向上させるためのより多くの潜在的なソリューションを提供するでしょう。

5. 困難な包括的なタスク評価データセットを構築する

優れた評価データセットは技術進歩の基礎となります。LLM モデルがスケールアップし、タスクのパフォーマンスが急速に向上するにつれて、多くの古典的なテスト セットはすぐに簡単になり、現在の手法の欠陥や盲点を効果的に評価できなくなります。したがって、LLM技術の進歩を促進するには、難易度の高いテストデータセットを構築することが重要です。現在、BIGBench や OPT-IML など、いくつかの新しいテスト セットが業界に登場しています。これらのテスト セットにはある程度の難易度があり、複数のタスク タイプの要件が統合されており、現在の LLM 技術の課題をより適切に反映しています。

ChatGPT からインスピレーションを得たものであるため、テスト セットの難しさと多様性に加えて、実際のユーザーのニーズを反映する要素も考慮する必要があります。言い換えれば、これらのタスクは実際のユーザーによって提案されるべきであり、このように構築された LLM モデルのみがユーザーの実際のニーズを真に解決できるのです。また、LLM は NLP 以外にも急速に機能を拡張していくため、他分野の評価データをどのように取り込むかを事前に検討する必要があります。これは、LLM モデルの幅広い適応性をさらに向上させるのに役立ちます。

6. 高品質なデータエンジニアリング

データは事前​​トレーニング モデルの中核であり、事前トレーニング プロセスはデータから知識を取得するプロセスです。したがって、高品質のデータのマイニング、収集、クリーニングにはさらに注意を払う必要があります。データの質と量は 2 つの重要な側面です。T5 の実験比較によると、質と量の間では質を優先する必要があると結論付けることができます。したがって、データ品質を確保しながらデータ サイズを増やすのが正しいアプローチです。データ品質の観点からは、データの情報内容や多様性などの複数の基準を考慮する必要があります。たとえば、Wikipedia は非常に高い情報量を備えた高品質のデータです。データ型の多様性を高めることは、LLM のさまざまな新機能を促進するために重要です。たとえば、質問応答 Web サイトからのデータを追加すると、LLM の質問応答能力の向上に直接役立ちます。多様なデータにより、LLM はさまざまな種類のタスクを解決する能力が向上するため、多様性はデータ品質における最も重要な基準となります。

データ量については、事前学習モデルに含めることができるのは原則としてインターネット上で公開されているデータとなります。ただし、データ量にも一定の制限があります。ある研究では、データ量のスケーラビリティを推定し、高品質の NLP データは 2026 年頃までに枯渇し、低品質の NLP データは 2030 年から 2050 年の間に枯渇し、低品質の画像データは 2030 年から 2060 年の間に枯渇すると結論付けています。これは、新しいタイプのデータ ソースを開発するか、LLM モデルによるデータ利用の効率を向上させる必要があることを示しています。そうしないと、データ駆動型モデルの最適化に対する現在のアプローチは進歩が止まったり、利益が減少したりすることになります。したがって、データの限界問題に対処するための新たな解決策を模索する必要がある。

7. 超大型 LLM モデル Transformer の疎性

LLM には、GPT 3、PaLM、GLaM など、スパース構造を採用した最大のモデルがいくつかあります。スパース モデルを使用する主な利点は、トレーニングと推論の時間を大幅に短縮できることです。密モデルと比較して、疎モデルのトレーニング速度は、同じ計算能力バジェットの下で 4 倍から 7 倍増加できます。これは、スパース モデルにはトレーニング インスタンスごとに膨大な量のパラメーターがありますが、スパース モデルはルーティング メカニズムを通じてトレーニングと推論に参加するパラメーターのごく一部のみを使用するため、高速であるためです。

将来の超大規模 LLM モデルは、2 つの主な理由により、モデルが疎になる傾向があると考えられます。まず第一に、標準的な密モデル自体がトレーニングと推論中に疎な活性化を示す、つまり、一部のパラメーターのみが活性化され、ほとんどのパラメーターはトレーニングと推論に関与しないことが研究によって示されています。これに基づいて、疎モデルへの移行は合理的な選択です。第 2 に、LLM モデルのサイズは増加し続けるため、高いトレーニング コストがモデル サイズを拡大するための主な障害となっています。スパース モデルを使用すると、非常に大規模なモデルのトレーニング コストを大幅に削減できるため、モデル サイズが大きくなるにつれて、スパース モデルの利点がより明らかになります。これらの理由により、将来の大規模な LLM モデルではスパース モデル スキームが採用される可能性があります。

しかし、他の大規模モデルがまだスパースモデルを採用していない理由は、スパースモデルには学習が不安定で過学習しやすいなどの問題があり、うまく学習することが難しいためです。したがって、スパース モデルが直面する問題を解決し、トレーニングが容易なスパース モデルを設計することが、将来の研究の重要な方向性となります。

ChatGPTを複製する際に注意すべき点は何ですか?

ChatGPT のような素晴らしい LLM モデルを再現するには、テクノロジーを選択するときに次の問題を考慮する必要があります。

1. 事前トレーニング モードに関しては、GPT などの自己回帰言語モデル、Bert などの双方向言語モデル、または T5 などの混合モードを選択できます。この論文の分析に基づくと、GPT 自己回帰言語モデルを選択することがより良い選択である可能性があります。ただし、国内の LLM プロジェクトの多くは Bert 双方向言語モデルまたは T5 混合言語モデルを選択しているようで、方向転換につながる可能性があります。

2. 強力な推論能力は、ユーザーが LLM を認識するための重要な基盤であり、現在の経験によれば、この目標を達成するには、トレーニング前の段階で大量のコードとテキストを導入し、LLM トレーニングを実施するのが最善です。同じ時間です。これを説明するために、前の記事にも対応する分析があります。

3. モデルパラメータを大きくしすぎず、それでも良好な結果が得られるようにしたい場合、2 つのオプションがあります。1 つは、高レベルの特徴抽出および表現機能を強化することです。これは、より深いネットワーク構造またはより複雑な特徴抽出方法によって実現できます。2 つ目は、テキスト検索モデルと LLM の組み合わせを使用して、テキスト検索モデルによる事前のスクリーニングとマッチングを提供し、その後 LLM でさらなる生成と推論を行うことで、LLM モデルのパラメーターのスケールを大幅に削減できます。

第 4 に、超大規模モデルのトレーニングはコストが高いため、それを実装できる機関はほとんどありません。したがって、LLM のトレーニング コストを削減することが非常に重要です。その中で、効果的な技術的選択は、LLM の特徴抽出器をスパース化することです。これにより、モデルのトレーニングと推論のコストを効果的に削減できます。したがって、モデルのサイズが大きくなるにつれて、LLM モデルのスパース化を考慮する必要があるオプションになります。

5. 現在、理想的な LLM に最も近い技術ソリューションは ChatGPT であり、理想的な LLM は、さまざまな種類のタスクをサポートできるほぼ全能の汎用大規模モデルである必要があります。この目標を達成するには、LLM の事前トレーニング データの多様性を増やすことで、より多くのタスク タイプをサポートできます。データの多様性が高まるほど、LLM がサポートできるタスクの種類が豊富になります。したがって、データの多様性を高めて LLM の機能を強化することに注意を払う必要があります。

6. 使いやすいマンマシンインターフェースも非常に重要です。LLM は、人間が慣れ親しんだ方法で記述されたタスクの本当の意味を理解できる必要があります。同時に、開発者の想像力や推測に頼るのではなく、エンドユーザーのニーズに応じてタスク表現を収集することも必要です。ChatGPT はこの点で私に多くのインスピレーションを与えてくれたので、強化学習を使用するかどうかはあまり重要ではなく、他の代替技術でも同様の結果を達成できます。

ChatGPT のような素晴らしい LLM モデルを複製するには、テクノロジーの選択に関して、事前トレーニング モード、推論能力、モデル サイズ、トレーニング コスト、データの多様性、ヒューマン マシン インターフェイスなどの要素を比較検討し、最適なものを選択する必要があります。一、目的を達成するための手段。

LLMトレーニングに必要な要素

大規模な言語モデルをトレーニングする場合、多くの課題が存在します。これらの課題は、ハードウェア要件、ヘルス チェック、オーケストレーション テクノロジ、データ処理、モデル スケールの拡張、コスト管理の 6 つの側面に要約できます。それぞれの側面は、モデル トレーニングの有効性と効率に大きな影響を与えます。

8f11f8f0132c2a1cef540030c960c7cd.png

大規模な言語モデルをトレーニングする場合、いくつかの課題に直面します。1つ目はハードウェア面です。最新のハードウェアを使用するとパフォーマンスが向上しますが、最新のハードウェアを最大限に活用しないと、トレーニング時間が長くなり、最適な結果が得られない可能性があります。

Blue Ocean Brain の高性能 LLM 大規模モデル トレーニング プラットフォームは、中間熱伝達媒体として作動流体を使用し、高温ゾーンから離れた場所に熱を伝達して冷却します。CPU、GPU、FPGA、AI などのさまざまなハードウェア アクセラレータをサポートしており、大規模なデータ処理や複雑なコンピューティング タスクのニーズを満たすことができます。分散コンピューティング アーキテクチャを採用して大規模データと複雑なコンピューティング タスクを効率的に処理し、ディープ ラーニング、ハイ パフォーマンス コンピューティング、大規模モデル トレーニング、大規模言語モデル (LLM) アルゴリズムの研究開発に対する強力なコンピューティング サポートを提供します。 。柔軟性と拡張性が高く、さまざまなアプリケーション シナリオや要件に応じてカスタマイズできます。さまざまなコンピューティング タスクを迅速に展開して管理できるため、コンピューティング リソースの使用率と効率が向上します。

もう 1 つの課題は、ハードウェアが適切に機能していることを確認し、中断を最小限に抑えるためのヘルスチェックです。ネットワークとセキュリティを適切に構成しながら、チーム内のワークロードが相互に干渉しないようにするために、オーケストレーションも考慮する必要があります。大規模なデータセットの処理も課題であり、効率的なストレージ、処理、読み込み方法が必要です。制限的な問題を克服するためにインフラストラクチャを拡張し、アルゴリズムを設計することも重要なタスクです。これらのモデルは通常、単一の GPU には適していないため、モデルを複数の GPU に分割する方法を検討する必要があります。

最後に、コスト管理も無視できない要素です。大規模なモデルのトレーニングには費用がかかる場合があるため、機械学習チームの時間を有効に活用して、インフラストラクチャに多くの時間を費やすのではなく、新しいモデルの作成に集中できるようにする必要があります。

おすすめ

転載: blog.csdn.net/LANHYGPU/article/details/131378192