Orca LLM: ChatGPT の推論プロセスをシミュレートする

推奨事項: NSDT シーン エディターを使用して 3D アプリケーション シーンを迅速に構築する

導入

大規模言語モデル (LLM) の分野では、効率を損なうことなく小規模モデルの機能を強化することが継続的に追求されています。従来のアプローチは、大規模な基本モデル (LFM) によって生成された出力から小規模なモデルが学習する模倣学習を使用することです。ただし、このアプローチには、浅い LFM 出力からの限定された模倣信号、小規模で均質なトレーニング データ、厳密な評価の欠如など、いくつかの課題があります。これにより、多くの場合、推論プロセスではなく LFM のスタイルを模倣した小さなモデルが作成されます。

論文「Orca: GPT-4 の複雑な解釈トレースからの進歩的学習」では、GPT-4 などの大規模基本モデル (LFM) の推論プロセスを模倣するように設計された 13 億パラメーター モデルであるOrca が紹介されています。従来の大規模言語モデル (LLM) とは異なり、Orca は、漸進的な学習と教師の支援を組み合わせた独自のトレーニング アプローチを使用して、小規模な学生モデルと大規模な学生モデル間の能力ギャップを克服します。

トレーニング方法


シャチのトレーニング プロセスは 2 つのフェーズで構成されます。

最初のフェーズでは、シャチは ChatGPT の強化を含む FLAN-5M でトレーニングされました。この中間レベルの TA は、パラメータ サイズがはるかに大きい Orca と GPT-4 の間の容量ギャップを埋めるのに役立ちます。ChatGPT の機能を活用することで、Orca は模倣学習パフォーマンスの向上という恩恵を受けます。

第 2 段階では、シャチは GPT-4 強化を含む FLAN-1M で訓練されました。この進歩的な学習アプローチは、学生がより難しい例に進む前に、より単純な例から学習するカリキュラム学習パラダイムに従っています。シャチを徐々に複雑な推論と段階的な説明にさらすことで、モデルはシャチの推論能力と模倣能力を強化しました。

利点と貢献


Orca のトレーニング方法には、従来の LLM に比べていくつかの利点があります。

まず、中級レベルの教師モデルを活用することでコンピテンシーギャップの問題に対処し、Orca がより有能な情報源から学習できるようにします。このアプローチは、より小さな生徒モデルで模倣学習のパフォーマンスを向上させることが示されています。

第 2 に、Orca トレーニングの漸進的学習の側面により、モデルは徐々に知識を構築できます。より単純な例から始めて、徐々により複雑な例を導入することで、Orca は推論と説明を生成するためのより強力な基盤を構築します。

さらに、GPT-4 などの LFM の推論プロセスを模倣する Orca の機能により、さまざまなタスクのパフォーマンスを向上させる可能性が開かれます。GPT-4 の解釈軌跡と段階的な思考プロセスによって提供される豊富な信号を活用することで、Orca は貴重な洞察を獲得し、その機能を向上させました。

パフォーマンスベンチマーク

Orca は、複雑なゼロショット推論ベンチマークで優れたパフォーマンスを発揮します。Vicuna-13B などの従来の最先端の命令調整モデルよりも、Big-Bench Hard (BBH) などのベンチマークで 100% 以上、AGIEval で 42% 以上優れています。さらに、Orca は BBH ベンチマークで ChatGPT と同じスコアを達成し、SAT、LSAT、GRE、GMAT などの専門試験および学術試験で競争力のあるパフォーマンスを実証しました。これらがマインドチェーンのないゼロショットセットアップであり、Orca が GPT-4 に遅れをとってはいるものの依然として競争力があることを考えると、これは特に印象的です。

影響と今後の方向性

Orcas の開発は、LLM の分野における大きな進歩を表しています。Orca は、豊富な信号から学習し、LFM の推論プロセスを模倣することで、複雑な推論タスクを高い精度で実行できます。これは、特に複雑な推論と問題解決を必要とする分野において、広範囲にわたる影響を及ぼします。

さらに、この研究は、段階的な AI モデルの説明から学習することが、モデルの機能を向上させる有望な方向性であることを示しています。これにより、LL.M. の分野における研究開発に新たな道が開かれます。

結論は


Orca は、プログレッシブ学習と教師の支援を組み合わせて模倣学習を強化する、大規模な言語モデルをトレーニングするための新しい方法を提案しています。中レベルの教師モデルを活用し、学生モデルをより複雑な例に徐々に公開することで、Orca は能力のギャップを克服し、推論と説明の生成能力を向上させます。この論文の発見は模倣学習技術の進歩に貢献し、将来の言語モデルの開発に影響を与えます。

元のリンク: Orca LLM: ChatGPT の推論プロセスのシミュレーション (mvrlink.com)

おすすめ

転載: blog.csdn.net/ygtu2018/article/details/132841777