Liu Zhiyuan 教師は次のように答えました。大型モデル LLM の分野では、学術研究の方向性として何が利用できますか?

出典 | 深層学習自然言語処理 著者 | Liu Zhiyuan

この質問に答えなければいけないと感じて、たまたま高速鉄道の中で答えを書いたのです。2022 年の初めに、私は「大規模モデルに関する 10 の質問」と題したレポートを発表し、大規模モデルに関して検討する価値があると考えられる 10 の質問を共有しました。当時、ビッグモデルはそれほど人気が​​ありませんでしたが、今ではビッグモデルはすべての女性と子供たちに知られており、日ごとに変化していますが、全体として、当時言及された10の問題のほとんどは時代遅れではありません。報告書の内容はこの問いによく当てはまりますので、ここではこの報告書の枠組みを青写真として捉え、それを少しアップデートして答えとして提示し、より多くの研究者が大型モデルの時代に自らの研究の方向性を見つけられることを願っています。

大規模モデルの出現後は NLP とは何の関係もないというコメントをいくつか読んだことがあります。私の考えでは、大型モデルなどの技術的変化が現れると、多くの古い問題が解決され消えていきますが、同時に世界を理解し、世界を変革するためのツールも強化され、より多くの新しい問題が現れるでしょう。問題と問題が次々と現れ、私たちが探索するのを待っています。したがって、学生は、自然言語処理であろうと、人工知能のその他の関連分野であろうと、技術革新が自分の分野や自分の周囲で起こっていることに感謝する必要があります。この新しい時代を受け入れる準備をし、根本的なイノベーションを起こす機会を増やしてください。私は、より多くの学生がこの新しい変化を積極的に受け入れ、すぐに巨大なモデルの肩の上に立ち、積極的に探求し、独自の方向性、方法、アプリケーションを開発できることを願っています。

概要

  1. 基礎理論:大型モデルの基礎理論とは何ですか?

  2. ネットワーク アーキテクチャ: Transformer は究極のフレームワークですか?

  3. 効率的なコンピューティング: 大規模なモデルをより効率的にするにはどうすればよいですか?

  4. 効率的な適応: 大規模なモデルを下流のタスクに適応させるには?

  5. 制御可能な生成: 大規模モデルの制御可能な生成を実現するにはどうすればよいですか?

  6. 安全で信頼できる: 大型モデルの安全倫理問題を改善するには?

  7. 認知学習: 大規模モデルに高度な認知能力を獲得させるにはどうすればよいでしょうか?

  8. 革新的なアプリケーション: 大型モデルの革新的なアプリケーションとは何ですか?

  9. データ評価: 大規模モデルのパフォーマンスをどのように評価するか?

  10. 使いやすさ: 大きなモデルを使用する敷居を下げるにはどうすればよいですか?

方向 1: 大規模モデルの基本的な理論的問題

グローバルリファインメントモデルの豊富な経験データの継続的な蓄積により、大規模モデルは以前の統計学習モデル、深層学習モデル、さらには少数/ゼロショットなどの事前訓練された小規模モデルとは異なる多くの特性を示すことがわかりました。学習、コンテキスト内学習、創発、スケーリング予測、パラメータ効率学習 (デルタ チューニングと呼びます) などの思考連鎖機能、スパース アクティベーションおよび機能分割機能などが待機します。着実な進歩を遂げるためには、大規模モデルに対する強固な理論的基盤を確立する必要があります。大規模なモデルの場合、次のような多くの疑問符が付きます。

何を - 大きなモデルは何を学んだのでしょうか? 大きなモデルは何を知っていて、何を知らないのでしょうか? 大きなモデルだけが獲得できて小さなモデルは獲得できない能力は何ですか? 2022 年、Google は大きなモデルの出現について議論する記事を発表し、多くの能力が魔法のように出現することを指摘しました。モデルのスケールが大きくなります 1]。では、この大きなモデルにはどのような驚きが隠されているのか、この疑問はまだ解明されていません。

大規模なモデルをどのようにトレーニングするか? モデルの規模が増大し続けるにつれて (スケーリング)、大規模モデルのトレーニングのルール [2] をどのように習得するかには、データの準備と結合の方法、最適なトレーニング構成の見つけ方、予測の方法など、多くの課題が含まれます。ダウンストリーム タスクのパフォーマンスを確認します。お待ちください [3]。これらは How の質問です。

なぜ——なぜビッグモデルが良いのか?この分野には、オーバーパラメータ化やその他の理論を含む、非常に重要な研究理論 [4、5、6] が数多く存在しますが、最終的な理論的枠組みのベールはまだ解けていません。

「何を、どのように、そしてなぜ」という疑問に直面すると、大規模なモデルには探索する価値のある多くの理論的問題があり、誰もが探索するのを待っています。数年前に黄鉄軍氏が例を挙げて、航空力学は最初に飛行機の発明から来たと述べたのを覚えています。このような実践から理論への昇華は歴史上必然であり、大型模型の分野でも起こるだろうと思います。これは間違いなく人工知能の分野全体の基礎となるため、トップ 10 の質問の最初の質問としてリストされています。

また、さらなる研究と探索のために、大規模モデルによって示されるさまざまな特性を文書化する必要があると考えています。この目的を達成するために、私たちは、大規模モデルの開発中に現象を収集および記録するためのウェアハウス BMPrinciples[1] をオープンソース化する予定です。これは、オープンソース コミュニティがより優れた大規模モデルをトレーニングし、大規模モデルを理解するのに役立ちます。

参考文献
[1] Wei et al. 大規模言語モデルの創発的な能力。TMLR 2022。
[2] Kaplan et al. 神経言語モデルのスケーリング則。2020
[3] OpenAI.GPT-4 技術レポート。2023。
[4] Nakkiran et al。深い二重降下: モデルが大きくなり、データが増えると問題が発生します。ICLR 2020。
[5] Bubeck et al。アイソペリメトリーによるロバスト性の普遍的な法則。NeurIPS 2021。
[6] Aghajanyan et al。固有の次元性は、言語モデルの微調整の有効性を説明します。ACL2021。

方向 2: 大規模モデルのネットワーク アーキテクチャ

現在大規模モデル向けの主流のネットワーク アーキテクチャである Transformer は 2017 年に提案されました。モデルのサイズが大きくなるにつれて、パフォーマンスの向上もわずかに減少します。Transformer は究極のフレームワークですか? Transformer よりも優れた、より効率的なネットワーク フレームワークを見つけることができますか? これは検討する価値のある基本的な質問です。

実際、ディープラーニング用の人工ニューラル ネットワークの構築は、神経科学やその他の分野からインスピレーションを受けており、次世代の人工知能ネットワーク アーキテクチャについては、関連分野からのサポートとインスピレーションも得ることができます。たとえば、一部の学者は数学関連の方向性に触発されて、非ユークリッド空間多様体ネットワーク フレームワークを提案し、幾何学的な事前知識をモデルに組み込もうとしましたが、これらは最近の比較的新しい研究方向です。

学者の中には、状態空間モデルや動的システムなどの工学や物理学からインスピレーションを得ようとする人もいます。神経科学は、新しいネットワーク アーキテクチャを探索するための重要なアイデアの源でもあり、脳からインスピレーションを得たコンピューティングの方向では、スパイキング ニューラル ネットワークやその他のアーキテクチャが試みられています。次世代の基本モデルネットワークの枠組みがどのようなものであるかについては、現時点で大きな結論は出ておらず、依然として検討が急務となっている。

参考文献
[1] Chen et al. 完全な双曲線ニューラル ネットワーク。ACL 2022。
[2] Gu et al. 構造化状態空間を使用した長いシーケンスの効率的なモデル化。ICLR 2022。
[3] Gu ら。リカレント、畳み込み、連続時間モデルを線形状態空間レイヤーと組み合わせます。NeurIPS 2021
[4] 渭南、ええ。動的システムによる機械学習に関する提案。数学と統計におけるコミュニケーション。
[5] マース、ヴォルフガング。スパイキング ニューロンのネットワーク: 第 3 世代のニューラル ネットワーク モデル。ニューラルネットワーク。

方向 3: 大規模モデルの効率的な計算

現在、大規模なモデルには、数十億、数百億、さらには数千億のパラメータが含まれることがよくあります。大型モデルのサイズが大きくなるにつれて、コンピューティングとストレージの消費コストも増加します。以前、一部の学者は、人工知能モデルの包括的な設計とトレーニングにおける重要な考慮事項としてコンピューティングのエネルギー消費を考慮して、GreenAI の概念を提案しました。この問題に対処するには、大規模モデルに対する効率的な計算システムを確立する必要があると考えています。

まず第一に、より効率的な分散トレーニング アルゴリズム システムを構築する必要があります。多くのハイ パフォーマンス コンピューティングの学者は、モデル並列処理 [9]、パイプライン並列処理 [8]、ZeRO- など、この点に関して多くの研究を行ってきました。 3 [1] およびその他のモデル 並列戦略では、大規模なモデル パラメーターを複数の GPU に分散し、テンソル オフロードやオプティマイザー オフロード [2] などのテクノロジーを通じて GPU の負担を安価な CPU とメモリに分散し、計算グラフを削減します。メモリ オーバーヘッドを再計算 [7] し、Tensor Core を使用して混合精度トレーニング [10] を通じてモデル トレーニングを高速化し、自動チューニング アルゴリズム [11、12] に基づいて分散オペレーター戦略を選択します。

現在、モデルアクセラレーションの分野では有力なオープンソースツールが数多く確立されており、海外ではMicrosoft DeepSpeedやNvidia Megatron-LM、国内ではOneFlowやColossalAIなどが有名です。これに関して、私たちの OpenBMB コミュニティは、GPT-3 大規模モデルのトレーニング コストを 90% 以上削減できる BMTrain を立ち上げました。

今後、多数の最適化戦略の中から、ハードウェアリソースの状況に応じて最適な最適化戦略の組み合わせをどのように自動的に選択するかは、さらなる検討に値する問題である。さらに、既存の作業では通常、一般的なディープ ニューラル ネットワークの最適化戦略が設計されており、ターゲットを絞った最適化のために Transformer の大規模モデルの特性を組み合わせる方法についてはさらなる研究が必要です。

そして、大規模なモデルを学習させて使えるようになると、推論の効率が重要な問題となるため、学習済みのモデルをできるだけパフォーマンスを落とさずに圧縮するという考え方もあります。この分野のテクノロジーには、モデルの枝刈り、知識の蒸留、パラメーターの量子化などが含まれます。最近では、大規模なモデルによってもたらされる疎な活性化現象も、モデル推論の効率を向上させるために使用できることがわかりました。基本的な考え方は、疎な活性化パターンに従ってニューロンをクラスター化およびグループ化し、非常に少数のニューロンのみを呼び出すことです。各入力に対するニューロン モジュールの計算、このアルゴリズムを MoEfication と呼びます [5]。

モデル圧縮に関しては、複数の圧縮技術を統合することで圧縮率を大幅に向上させた効率的な圧縮ツールBMCook [4]もリリースしており、現在主流の4つの圧縮方式が実装されており、要件に応じて異なる圧縮方式を組み合わせることが可能です。シンプルな組み合わせでは、圧縮率10倍で元のモデルの約98%の性能を維持できる 今後は、大規模モデルの特性に応じた圧縮方式の組み合わせをどのように自動的に実現するかがさらなる課題となる探検。

MoEfication [5] に関する詳細情報は次のとおりです。 スパース活性化現象に基づいて、元のモデルのパラメーターを変更せずにフィードフォワード ネットワークを混合エキスパート ネットワークに変換し、動的に選択することでモデルの効率を向上させることを提案します。専門家。実験の結果、フィードフォワード ネットワーク計算のわずか 10% で、元のモデルの効果の約 97% を達成できることがわかりました。従来の枝刈り手法が焦点を当てていたパラメータのスパース現象と比較して、ニューロンのスパース活性化現象は広く研究されておらず、関連するメカニズムとアルゴリズムを早急に探索する必要があります。

参考文献
[1] Samyam Rajbhandari et al. ZeRO: 兆パラメータ モデルのトレーニングに向けたメモリの最適化。SC 2020。
[2] Jie Ren 他。ZeRO-Offload: 10 億規模のモデル トレーニングの民主化。USENIX ATC 2021。
[3] Dettmers et al. LLM.int8(): 大規模なトランスフォーマー用の 8 ビット行列乗算。NeurIPS 2022。
[4] Zhang et al. BMCook: 大きなモデル用のタスクに依存しない圧縮ツールキット。EMNLP 2022 デモ。
[5] MoEfication: トランスのフィードフォワード層は専門家の混合物です。ACL 2022 の調査結果。
[6] 怠惰なニューロン現象: トランスフォーマーにおける活性化の疎性の出現について。ICLR 2023.
[7] サブリニアなメモリ コストによるディープ ネットのトレーニング。2016.
[8] 高速かつ効率的なパイプライン並列 DNN トレーニング。2018年。
[9] Megatron-lm: モデル並列処理を使用して、数十億のパラメーター言語モデルをトレーニングします。2019.
[10] 混合精度トレーニング。2017.
[11] Unity: 代数変換と並列化の共同最適化を通じて {DNN} トレーニングを加速します。OSDI 2022。
[12] Alpa: 分散ディープラーニングのためのオペレータ間および{オペレータ内}並列処理の自動化。OSDI 2022。

方向 4: 大規模モデルの効率的な適応

大規模なモデルをトレーニングしたら、それを下流のタスクにどのように適応させることができるでしょうか? モデルの適応とは、下流のタスクにモデルを使用する方法を研究することです。より一般的な用語は「調整」です。

従来、モデルの適応では、特定のシナリオやタスクのパフォーマンスに重点が置かれていました。ChatGPT の開始により、モデルの適応も一般的な能力の向上と人間の価値観との整合に焦点を当て始めました。基本モデルが大きいほど、既知のタスクのパフォーマンスが向上すると同時に、複雑なタスクをサポートできる可能性があることがわかっています。これに応じて、より大きな基本モデルを下流のタスクに適応させるための計算とストレージのオーバーヘッドも大幅に増加します。

これにより、基本モデルの適用閾値は大幅に上昇しており、2022 年までに集計した論文から判断すると、事前学習済み言語モデルはインフラとなっているものの、実際に大規模モデルを使用している論文の割合は依然として非常に低いです。非常に重要な理由は、多くの大規模モデルが世界中でオープンソース化されているにもかかわらず、多くの研究機関にとって、大規模モデルを下流のタスクに適応させるのに十分なコンピューティング リソースがまだないということです。ここでは、モデル フィッティングの効率を向上させるために、少なくとも 2 つのオプションを検討できます。

1 つ目のソリューションは、プロンプト学習 (プロンプト学習) です。これは、トレーニングと下流タスクの形式から開始し、入力 (プロンプト) [1,2,3] タスクにプロンプ​​トを追加することで、さまざまな下流タスクを事前トレーニングされた言語モデルに変換します。 、異なる下流タスクと事前トレーニング下流タスクの統合を実現し、それによってモデル適応の効率を向上させます。実際、人気のある命令チューニング (命令チューニング) は、ヒントを使用してアイデアを学習する具体的なケースです。

私は昨年 Weibo で、大規模モデルの時代には即時学習が特徴量エンジニアリングになるだろうとコメントしました。現在では、プロンプト エンジニアリング (プロンプト エンジニアリング) に関するチュートリアルが多数登場しており、プロンプト学習が大規模モデル適応の標準となっていることがわかります。

2 番目のオプションは、パラメーター効率の高いチューニング (パラメーター効率の高いチューニングまたはデルタ チューニング) [4、5、6] です。基本的な考え方は、ほとんどのパラメーターを変更せずに、大規模なモデル内のごく少数のパラメーターのセットのみを調整することです。これにより、大規模なモデル適応にかかるストレージとコンピューティングのコストが大幅に節約され、基本モデルが大きい場合 (10 億以上など)、効率的なパラメータ微調整により、フルパラメータ微調整と同じ効果が得られます。チューニング。現在、効率的なパラメータ微調整はヒント微調整ほど注目されていませんが、実際には効率的なパラメータ微調整は大規模モデルの固有の特性を反映しています。

パラメータの効率的な微調整の特徴を探るために、私たちは昨年、パラメータの効率的な微調整に関する系統的な調査と分析を実施し、統一パラダイムのモデリング枠組みを与えました。理論的には、最適化と最適制御の2つの観点からの理論的分析、実験に関しては、総合的なパフォーマンス、収束効率、機動性、モデルへの影響、計算効率の観点から、100を超える下流タスクを実験的に分析し、多くの革新的な結論を導き出しました。多くのパラメータが大規模なモデルを効率的に駆動することが描かれています, たとえば, パラメータ効率の良い微調整方法は明らかなPower of Scale現象を示します. 基本モデルの規模がある程度大きくなると, 異なるパラメータの効率の良い微調整間のパフォーマンスギャップが生じますメソッドの範囲が狭くなり、パフォーマンスは基本的にパラメータを完全に微調整した場合と同等になります。この論文は今年、Nature Machine Intelligence 誌の表紙記事になりました [4]。ぜひダウンロードして読んでください。

これら 2 つの方向において、大規模モデル適応の研究と応用を促進するために、OpenPrompt [7] と OpenDelta という 2 つのツールをオープンソースにしています。その中で、OpenPrompt は、統一パラダイムを備えた初のプロンプト学習ツールキットであり、ACL 2022 Best System & Demonstration Paper Award (ACL 2022 Best Demo Paper Award) を受賞しています; OpenDelta は、モデル コードの変更を必要としない最初のパラメータです。微調整ツールキット。現在、ACL 2023 デモ トラックでも受け入れられています。

参考文献
[1] Tom Brown et al. 言語モデルは少数回の学習者です。2020.
[2] ティモ・シックら。Cloze の質問を活用して、少数ショットのテキスト分類と自然言語推論を実現します。EACL 2021。
[3] Tianyu Gao 他。事前トレーニングされた言語モデルをより優れた少数回学習者にします。ACL 2021。
[4] Ning Ding 他。大規模な事前トレーニング済み言語モデルのパラメーター効率の高い微調整。自然の機械知能。
[5] ニール・ホールズビーら。NLP のためのパラメーター効率の高い転移学習。ICML 2020。
[6] Edward Hu 他。LoRA: 大規模言語モデルの低ランク適応。ICLR 2022。
[7] Ning Ding 他。OpenPrompt: プロンプト学習のためのオープンソース フレームワーク。ACL 2022 デモ。

方向 5: 大規模モデルの制御可能な生成

私は数年前のポピュラーサイエンスレポートで、自然言語処理によって既存のデータの消費(自然言語理解)から新しいデータの生成(自然言語生成)への移行が実現され、それは大きな変化となるだろうと想像しました。この大規模なモデル技術の変化の波は、AIGC のパフォーマンスを大幅に向上させ、研究と応用のホットスポットとなっています。生成された条件や制約を生成プロセスに正確に追加する方法は、大規模モデルの探索の重要な方向性です。

ChatGPT が登場する前には、プロンプト学習でプロンプトワードを使用して生成プロセスを制御するなど、制御可能な生成のための多くの探索スキームが存在しました。制御可能な発電に関しては、統一的な制御可能な発電の枠組みをどのように確立するか、科学的かつ客観的な評価方法をどのように確立するかなど、長い間未解決の課題もいくつかあります。

ChatGPT は制御可能な生成において大きな進歩を遂げており、現在、制御可能な生成には比較的成熟したアプローチが採用されています。 (1) 命令チューニング (命令チューニング) [1、2、3] を通じて大規模モデルの意図を理解する能力を向上させます。人間の入力を正確に理解してフィードバックを提供できる; (2) プロンプト エンジニアリングを通じてモデルの出力を刺激する適切なプロンプトを作成します。純粋な自然言語を使用して生成を制御するこの方法は、非常に優れた結果を達成しており、一部の複雑なタスクについては、思考連鎖などのテクノロジーを通じてモデルの生成を制御することもできます。

この技術ソリューションの中心的な目標は、モデルが指示に従う能力 (指示に従う) を確立できるようにすることです。最近の研究では、この能力を得るには特に複雑な技術は必要なく、微調整のための十分な多様な指示データが収集されれば、良好なモデルが得られることがわかっています。最近、非常に多くのカスタム オープンソース モデルが登場しているのはそのためです。もちろん、より高い品質を達成したい場合は、RLHF などの操作を実行する必要がある場合があります。

このようなモデルの開発を促進するために、当研究室システムでは、多様で高品質な多ラウンド指示対話データ UltraChat [5] を自動生成する一連の処理を設計し、手作業による丁寧な後処理を実施しました。この度、オープンソースコミュニティの中でも最大級となる、合計150万件を超える英語データをすべてオープンソース化しましたので、皆様のご活用をお待ちしております。強力なモデル。

参考文献
[1] Jason wei et al. 微調整された言語モデルはゼロショット学習者です。ICLR 2022。
[2] Victor Sanh 他。マルチタスク プロンプト トレーニングにより、ゼロショット タスクの一般化が可能になります。ICLR 2022。
[3] スリニバサン・アイヤー。OPT-IML: 一般化のレンズを通したスケーリング言語モデル命令メタ学習。プレプリント 2022。
[4] Jason Wei 他。思考の連鎖を促すことで、大規模な言語モデルで推論が導き出されます。NeurIPS 2022。
[5] Ning Ding et al。高品質の教育的会話を拡張することでチャット言語モデルを強化します。2023 年のプレプリント。

方向性 6: 大型モデルの安全性と倫理的問題

ChatGPTに代表される大規模モデルが人間の日常生活に浸透するにつれ、大規模モデル自体の安全性や倫理性の問題がますます顕著になってきている。ChatGPT が人間により良く役立つようにするために、OpenAI はこの分野に多くのエネルギーを投資してきました。多数の実験により、大規模なモデルは従来の敵対的攻撃や OOD サンプル攻撃に対して優れた堅牢性を示すことが示されています [1]。しかし、実際のアプリケーションでは、大規模なモデルは依然として攻撃を受けやすいです。

さらに、ChatGPT の広範な適用により、人々は多くの新しい攻撃方法を発見しました。たとえば、最近リリースされた ChatGPT 脱獄 (ジェイルブレイク) [2] (またはプロンプト インジェクション攻撃) は、大規模モデルの特性を利用してユーザーの指示に従い、モデルが間違った、または危険な応答を返すように誘導します。大規模モデルの機能がますます強力になるにつれて、大規模モデルのセキュリティ リスクや脆弱性が以前よりも深刻な結果を引き起こす可能性があることを認識する必要があります。ChatGPT がサークルから外れてから、これらの抜け穴を防止および修正する方法がホットな話題になっています [3]。

また、大規模なモデル生成や関連アプリケーションの内容には、さまざまな倫理的問題もあります。たとえば、誰かが大規模なモデルを使用してフェイクニュースを生成したらどうなるでしょうか? 大手モデルからの偏った差別的なコンテンツを回避するにはどうすればよいでしょうか? 学生は宿題のために大きなモデルをどうすればよいでしょうか? これらは現実世界で実際に起こっている問題であり、まだ満足のいく解決策はありませんが、いずれも良い研究テーマです。

具体的には、大規模モデルのセキュリティに関して、大規模モデルは敵対的な攻撃に対して優れた堅牢性を備えているものの、特にバックドア (バックドア) が意図的に埋め込まれやすいため、大規模モデルを特定のシナリオに特化できることがわかりました。これは、大規模モデルにとって非常に重要なセキュリティ問題です。これに関連して、私たちは研究者により標準化され、簡単に拡張可能なプラットフォームを提供することを目的として、過去に Open Attack と OpenBackdoor という 2 つのツールキットを開発しました。

さらに、大規模モデルのプロバイダーはモデルの推論 API のみを提供し始めており、これによりモデルのセキュリティと知的財産権がある程度保護されます。ただし、このパラダイムは、モデルの下流での適応をさらに困難にします。この問題を解決するために、我々は出力端でブラックボックス大規模モデルを下流に適応させる手法であるDecoder Tuningを提案し、既存の手法と比較してタスクの理解において200倍の高速化とSOTA効果をもたらします。 ACL 2023 に承認されました。ぜひお試しください。

大規模モデルの倫理という観点からは、大規模モデルと人間の価値観の整合性をいかに実現するかが重要な命題となる。以前の研究では、モデルが大きくなるほど偏りが大きくなることが示されています [5]。ChatGPT 以降に登場した RLHF や RLAIF などの位置合わせアルゴリズムは、この問題を大幅に軽減し、大規模なモデルを人間の好みに合わせて作成し、より高い品質を生成することができます。フィードバックベースの調整は、事前トレーニングや命令の微調整などの技術と比較して、非常に新しい研究方向ですが、その中でも強化学習は調整が難しいことでも知られており、検討する価値のある問題が数多くあります。

参考文献
[1] Wang et al. ChatGPT の堅牢性について: 敵対的および配布外の観点。Arxiv 2023.
[2] アリ・ボルジ。ChatGPT の失敗のカテゴリ別アーカイブ。Arxiv 2023。
[3] https://openai.com/blog/governance-of-superintelligence
[4] Cui et al。テキストによるバックドア学習の統一評価: フレームワークとベンチマーク。NeurIPS 2022 データセットとベンチマーク。
[5] リンら。TruthfulQA: モデルが人間の虚偽をどのように模倣するかを測定します。ACL2022。

方向 7: 大規模モデルの認知学習の問題

ChatGPT は、大規模なモデルが基本的に人間の言語を習得し、ユーザーの意図を理解してタスクを完了するために指示を通じて微調整されていることを意味します。それでは、将来に向けて、現在の大きなモデルでは利用できない、人間に特有の認知能力には他にどのようなものがあると考えられるでしょうか? 私の意見では、人間の高度な認知能力は、複雑なタスクを解決する能力、つまり、これまで遭遇したことのない複雑なタスクを既知の解決策を備えた単純なタスクに分解し、単純なタスクの推論に基づいて最終的にタスクを完了する能力に反映されています。 。また、その際、人間の脳内のすべての情報を記録しようとするのではなく、さまざまな外部ツールを利用することに長けており、「紳士は変わらない、偽物が得意」である。

これは、大型モデルについては将来的に検討する価値のある重要な方向性となります。この大型モデルは多くの面で大きな進歩を遂げましたが、幻覚の問題は依然として深刻であり、専門的な作業においては信頼性が低く、専門的ではない課題に直面しています。これらのタスクを解決するには、多くの場合、専門的なツールやドメイン知識のサポートが必要です。したがって、大規模なモデルは、さまざまな複雑なタスクをより適切に完了するために、さまざまな専門ツールの使用方法を学習する能力を備えている必要があります。

ツール学習により、モデルの適時性が不十分であるという問題が解決され、専門知識が向上し、解釈可能性が向上することが期待されます。複雑なデータやシナリオを理解するという点では、大規模モデルは当初、人間のような推論と計画能力を備えていましたが、時代の要求に応じて大規模モデルのツール学習 (Tool Learning) [1] パラダイムが登場しました。このパラダイムの中心となるのは、専用ツールと大規模モデルの利点を融合して、より高い精度、効率、自律性を実現することです。現在、WebGPT / WebCPM [2、3] などの成果があり、大規模モデルが検索エンジンの使い方を学習し、人間と同じように Web サーフィンをし、特定のタスクを完了するために的を絞った方法で有用な情報を取得できるようにすることに成功しています。

最近では、ネットワーキングや数学的コンピューティングなどのツールの使用を可能にする ChatGPT プラグインの出現は、OpenAI の「App Store」の瞬間と呼ばれています。ツール学習は間違いなく大規模モデルの重要な探索方向になるでしょう. 大規模モデルのツール学習機能を探索するオープンソース コミュニティをサポートするために、私たちはオープンソースのスケーラブルなツールであるツール学習エンジン BMTools [4] を開発しました。大規模な言語モデルに基づく学習プラットフォームであり、さまざまなツール(ヴィンセントグラフモデル、検索エンジン、株式クエリなど)の呼び出しプロセスを同一のフレームワークの下に統合し、ツール呼び出しプロセスの標準化と自動化を実現します。開発者は、BMTools を使用して、特定の大規模モデル API (ChatGPT、GPT-4 など) またはオープン ソース モデルを使用して、さまざまなツール インターフェイスを呼び出してタスクを完了できます。

さらに、既存の取り組みのほとんどは、単一の事前学習モデルの能力を向上させることに焦点を当てており、単一の大きなモデルがすでに比較的演奏できる能力を備えていることに基づいて、将来は単一の知能から複数の知能への飛躍が始まるでしょう。 -ボディインテリジェンスを強化し、マルチモデルの相互運用性、相互作用、協力、または競争を実現します。たとえば、スタンフォード大学は最近、ある程度の社会的属性を備えた大きなモデルによってキャラクターが演じられる仮想都市を構築しました。複数のモデルの相互作用、連携、競合は、将来有望な研究の方向性となるでしょう。現時点では、マルチモデル インタラクティブ環境を構築するための成熟したソリューションはありません。このため、私たちはオープン ソース フレームワーク AgentVerse [6] を開発しました。コード行。同時に、AgentVerse は BMTools と連携しており、設定ファイルにツールリンクを追加することでモデルにツールを提供することができ、ツールとのマルチモデル連携を実現します。将来的には、複雑な問題を解決するためのツールを調整するために「大規模なモデルアシスタントのチーム」を雇うこともあるかもしれません。

参考文献
[1] Qin, Yujia, et al. 「基礎モデルによるツール学習」。arXiv プレプリント arXiv:2304.08354 (2023)。
[2] 中野礼一郎ほか 「Webgpt: 人間のフィードバックによるブラウザ支援の質問応答」arXiv プレプリント arXiv:2112.09332 (2021)。
[3] Qin、Yujia、他。「WebCPM: 中国語の長文質問応答のための対話型 Web 検索」。arXiv プレプリント arXiv:2305.06849 (2023)。
[4] BMTools: https://github.com/OpenBMB/BMTools
[5] Park、Joon Sung、他。「生成エージェント: 人間の行動のインタラクティブなシミュラクル」arXiv プレプリント arXiv:2304.03442 (2023)。
[6] AgentVerse: https://github.com/OpenBMB/Agen

方向性 8: 大型モデルの革新的な応用

大型モデルは、多くの分野で大きな応用の可能性を秘めています。近年、『Nature』の表紙記事にさまざまなアプリケーションが登場し、大型モデルが重要な役割を果たし始めています[2,3]。この点でよく知られている研究は、タンパク質全体の構造の予測に多大な影響を与えた AlphaFold です。

今後この方向においては、AIが得意とする大規模データモデリングや大規模モデル生成プロセスにドメイン知識をいかに付加するかが重要な課題であり、大規模モデルを革新的なアプリケーションに活用するための重要な命題となる。 。

現時点で、私たちはすでに法的インテリジェンスと生物医学のいくつかの探求を開始しています。たとえば、早ければ 2021 年には、Power Law Intelligence と共同で立ち上げられた中国初の法的インテリジェンスの事前トレーニング モデルである Lawformer は、法分野における長い文書をより適切に処理できるようになり、化学式と自然言語をモデル化できる統合モデルも提案しました。同時に、事前トレーニングされたモデル KV-PLM は、特定の生物医学的タスクにおいて人間の専門家を超えることができ、関連する結果は Nature Communications に掲載され、編集者のハイライトに選ばれました。

参考文献
[1] Zeng、Zheni、他。人間の専門家に匹敵する理解力で分子構造と生物医学テキストを橋渡しする深層学習システム。Nature Communications 13.1 (2022): 862.
[2] Jumper、John、他。AlphaFold による高精度なタンパク質構造予測。ネイチャー 596.7873 (2021): 583-589。
[3] Assael、Yannis、他。ディープ ニューラル ネットワークを使用した古代文書の復元と帰属。ネイチャー 603.7900 (2022): 280-283。
[4] シャオら。Lawformer: 中国の長い法律文書用の事前トレーニング済み言語モデル。AIオープン、2021年。

方向性 9: 大規模モデルのデータと評価の問題

ディープラーニングと大規模モデルの開発を通じて、「More Data, More Intelligence」(より多くのデータ、より多くのインテリジェンス)の原則の普遍性が継続的に検証されてきました。複数のモーダルデータからよりオープンで複雑な知識を学習することは、将来的に大規模モデルの機能を拡張し、インテリジェンスのレベルを向上させる重要な方法になります。最近、OpenAI の GPT-4[1] は言語モデルに基づいて視覚信号の深い理解を拡張し、Google の PaLM-E[2] はロボット制御の具現化された信号をさらに統合しました。最近の最先端の開発を概観すると、主流になりつつある技術ルートは、大規模言語モデルに基づいており、大規模言語モデルの知識と機能をマルチモーダル コンピューティングに吸収するために他のモーダル信号を組み込んでいることがわかります。

これに関して、私たちの最近の研究 [3] では、異なる言語の大規模モデル ベース間でビジョン モジュールを転送することによって、マルチモーダル大規模モデルの事前トレーニングのオーバーヘッドを大幅に削減できることがわかりました。私たちの最近の実験では、新たにオープンソース化された 100 億の中国語と英語のバイリンガル基本モデル CPM-Bee に基づいて、大規模なマルチモーダル モデルを迅速にトレーニングし、画像を中心としたオープン ドメインで中国語と英語のマルチモーダル対話を実行できることを示しています。人間と効果的に対話することができ、パフォーマンスも悪くありません。将来に向けて、よりモーダルで大規模なデータから知識を学習することが、大規模モデル技術を開発する唯一の方法です。一方で、大規模モデルはますます大規模化し、構造、データソース、学習対象の種類も増加していますが、これらのモデルのパフォーマンスはどの程度向上しているのでしょうか? まだやるべきことはどこにあるでしょうか?大型モデルの性能評価については、大型モデルの長所と短所を判断するための科学的な基準が必要です。

これは、ChatGPT が登場する前からすでに重要な提案でした。GLUE や SuperGLUE などの評価セットは、事前トレーニング モデルの開発に大きな影響を与えてきました。この点で、私たちは過去数年間で CUGE 中国語理解および生成評価セットも発売しました。 . [4] では、さまざまなメトリクス、データセット、タスク、機能に関するモデルのスコアをレイヤーごとにプールすることで、さまざまな側面でモデルのパフォーマンスを体系的に評価します。この自動回答照合による評価手法は、大規模モデルや生成AIが台頭する以前の自然言語処理分野で主流の評価手法であり、評価基準が固定されており、評価速度が速いという利点があります。生成型 AI の場合、モデルは発散性が高く長大なコンテンツを生成する傾向があり、自動評価指標を使用して生成されたコンテンツの多様性と創造性を評価することは困難であり、新たな課題と研究の機会がもたらされています。メソッドは大きく次のカテゴリに分類できます。

自動評価方法:多くの研究者が、小学校から大学までの人間の試験問題や、財務や法律などの専門試験の問題を多肢選択問題の形式で収集するなど、新しい自動評価方法を提案しています [5]。選択肢を直接読み取ることができ、回答を自動的に評価できるため、この方法は、知識の蓄積、論理的推論、意味の理解などの次元で大規模なモデルの機能を評価するのに適しています。

モデルの評価方法:一部の研究者は、より強力な大型モデルを審判として使用することも提案しました [6]。たとえば、GPT4 と他のモデルのオリジナルの問題と 2 つのモデルの回答を直接与え、GPT4 にプロンプ​​トの単語を書くことで採点審判として機能させ、2 つのモデルの回答を採点します。この方法では、審判モデルの能力によって効果が限定されたり、審判モデルが特定のポジションのモデルに高評価を与えやすくなったりするなどの問題点もあるが、利点は次のとおりである。評価者を必要とせずに自動的に実行でき、判定はある程度の参考になります。

手動による評価方法:現時点では手動による評価の方が信頼性が高い方法ですが、生成されるコンテンツが多様であるため、合理的な評価システムを設計し、知識レベルの異なるアノテーターの認識をどのように調整するかが新たな問題となっています。現在、国内外の研究機関は大規模モデル機能の「アリーナ」を立ち上げており、ユーザーは同じ質問に対するさまざまなモデルの回答について盲目的にコメントすることが求められています。たとえば、評価プロセスにおいて、ラベル作成者を支援する自動インジケーターを設計できるか? 質問に対する答えをさまざまな側面から採点することはできますか? オンライン公開テスターから比較的信頼できる回答を選択するにはどうすればよいですか? これらの問題は実践し、検討する価値があります。

参考文献
[1] OpenAI。GPT-4 テクニカルレポート。2023.
[2] Driess D、Xia F、Sajjadi MSM、他。PaLM-E: 具現化されたマルチモーダル言語モデル[J]。arXiv プレプリント arXiv:2303.03378、2023。
[3] Zhang A、Fei H、Yao Y、他。LLM 間でビジュアル プロンプト ジェネレーターを転送します[J]。arXiv プレプリント arXiv:2305.01278、2023。
[4] Yao Y、Dong Q、Guan J、他。Cuge: 中国語の理解と生成の評価ベンチマーク[J]。arXiv プレプリント arXiv:2112.13610、2021。
[5] Chiang、Wei-Lin 他。Vicuna: 90%* ChatGPT 品質を備えた GPT-4 を実現するオープンソース チャットボット。2023.
[6] Huang、Yuzhen 他。C-Eval: 基礎モデル用のマルチレベル、複数分野の中国語評価スイート。arXiv プレプリント arXiv:2305.08322、2023。

方向性 10: 大型モデルの使いやすさ

この大規模モデルは、ますます統一化が進む Transformer ネットワーク アーキテクチャと、さまざまな分野でますます統一化が進む基本モデルに具体化される強い一般的な傾向を示しており、さまざまな業界での導入の可能性をもたらします。コンピュータ開発の歴史の中で成功を収めた標準化されたデータベース システムとビッグ データ分析システムからインスピレーションを得て、複雑で効率的なアルゴリズムをシステム層でカプセル化し、システム ユーザーに理解しやすく強力なインターフェイスを提供する必要があります。

このコンセプトに従って、私たちは 2021 年に「大きなモデルを数千世帯に飛ばす」という目標を提案し、OpenBMB オープンソース コミュニティ (正式名は Open Lab for Big Model Base) を構築し、一連のカバレッジ トレーニングを順次リリースしました。 、微調整、圧縮、推論とアプリケーションのためのフルプロセス高効率コンピューティング ツール システムには現在、高効率トレーニング ツール BMTrain、高効率圧縮ツール BMCook、低コスト推論ツール BMInf、ツール学習が含まれています。エンジン BMTools など。OpenBMB大型モデルシステムは、当社が自社開発した中国語大型モデルCPMシリーズを完全にサポートしており、最近、100億の中国語と英語のバイリンガル基本モデルCPM-Beeの最新バージョンがオープンソース化されました。私は、大規模モデルにはパフォーマンスが良いだけでなく、使いやすい強力なツール システムが必要であると考えており、今後も CPM 大型モデルと OpenBMB 大型モデル ツール システムの開発を継続し、中国世界システムの最高の大型モデル。誰もがそれらを使用して提案や意見を提出し、私たち全員に属するこの大規模なモデルのオープンソース コミュニティを共同で構築することができます。

謝辞: 技術的な詳細を提供してくれた研究室のクラスメートに感謝します。

おすすめ

転載: blog.csdn.net/lqfarmer/article/details/131131704