全員捕まえろ!国内外の大規模模型研究のまとめ

ChatGPT の出現以来、さまざまな大規模な言語モデルが完全にブロックされなくなりましたが、毎日見られるモデルは同じではなく、どの組織がこれらのモデルをリリースしたのか、どのような機能的特徴があるのか​​、そしてこれらのモデル間の関係を知ることはほとんど不可能です。たとえば、GPT-3.0 と GPT 3.5 には、アルパカ、ビキューナ、ラクダなどの一連のモデル バージョンとインデックスがあります。

b098433b921666d1699c6798b3c29e47.gif

そこで、主にお互いを知りたいという理由で、よく知られている大きな言語モデルについて少し調べてみましたが、それを整理した後は、気分がかなりすっきりし、Zhihu に簡単に行って学習できるようになりました。

9d2b8cea688cb646a23af96ee53a1817.gif

一、基本的な言語モデル

基本言語モデルとは、命令や下流タスクの微調整、人間によるフィードバックなどの調整の最適化を行わず、大規模なテキスト コーパスで事前トレーニングされただけのモデルを指します。

d0a7d69ad49f5210789488e013e014b4.jpegBasic LLM 基本情報テーブル、GPT スタイルはデコーダ専用自己回帰言語モデル、T5 スタイルはエンコーダ デコーダ言語モデル、GLM スタイルは GLM 特殊モデル構造、マルチタスクは ERNIE 3.0 モデル構造を意味します

  • 現在の大規模な言語モデルのほとんどはデコーダのみのモデル構造です 。その理由は、この質問を変更してください。現在の LLM がデコーダのみのアーキテクチャである理由[1]

  • 大規模な言語モデルのほとんどはオープンソースではありません が、OPT、BLOOM、LLaMA の 3 つのモデルは主に研究と応用を促進するためにオープンソースを指向しています。GLM には中国語のオープンソースが利用可能です。多くのフォローアップ作業が行われています。これらのオープンソースの基本モデルに基づいて微調整され、最適化されます。

T5

T5 は Google が提案する統合事前学習モデルおよびフレームワークであり、Google 独自の Encoder-Decoder Transformer 構造を使用したモデルです。 T5 では、すべてのテキスト処理問題を「テキストからテキスト」問題と見なし 、テキストを入力として受け取り、新しいテキストを出力として生成します。このようにして、さまざまな NLP タスクを 1 つのモデル フレームワークの下で統合して、転移学習を完全に実行できます。

実行する必要があるタスクの種類をモデルに通知するために、プロンプトへの入力テキスト (最も早いプロンプト) の前にタスク固有のプレフィックス (タスク固有のプレフィックス) が追加されます。つまり、同じモデル、同じ損失関数、同じトレーニング プロセス、および同じデコード プロセスを使用して、すべての NLP タスクを完了できます。

T5自体は主に英語学習向けであり、Googleは101言語に対応したT5の多言語版mT5 [3]もリリースしている。

97af2e8d75c2cfeb67d7c26ec986a78f.jpeg

GPT-3

最も代表的かつ主要な大規模言語モデルは、ChatGPT をリリースした OpenAI の GPT シリーズ モデル (GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4) であり、現在の大規模言語モデルのほとんどは次のような構造になっています。すべて GPT スタイルGPT-1/2/3 は生成事前トレーニング モデル[5]の記事で紹介されており、GPT-3 から始まるのが本当の大きなモデルです。

GPT-3 は OpenAI がリリースした GPT シリーズ モデルの 1 つで、Transformer Decoder に基づいた GPT-1/2 の自己回帰言語モデル構造を継承していますが、モデル パラメーター スケールを175B に 拡張しており、これはその 100 倍です 。 GPT-2. 大規模データからより多くの知識を吸収します。

GPT-3 はゼロショット設定を追求しなくなりましたが、 インコンテキスト学習を提案します。ダウンストリーム タスクでは、モデルは追加の微調整を必要としません。プロンプトは、モデルが学習する少数のラベル付きサンプルを提供するために使用されます。そして推論生成を実行します 対象のタスクにラベル付けされたサンプルが少数しかない場合でも、適切な一般化を実行できます。これは、奇跡を精力的に攻撃して大規模なモデルを作成する必要性を再度証明しています。

多数の実験を通じて、GPT-3 は、ゼロショット、ワンショット、および少数ショットの設定の下で、多くの NLP タスクおよびベンチマークで優れたパフォーマンスを示し、少数の数値のみで優れたパフォーマンスを発揮することが証明されています。の一般化は、奇跡を精力的に攻撃し、大規模なモデルを作成する必要性を再度証明します。

8ea975bef5aec6a226538e4c60729eed.jpeg

ラMDA

LaMDA は、2021 年の開発者会議で Google が発表した対話専用の大規模言語モデルで、パラメータ数は 137B です。この論文では、モデルのトレーニングを改善するための 3 つの指標を提案しています。それは、 品質/品質 (合理性/合理性、特異性/特異性、興味深さ/興味深さ、SSI)、安全性/安全性、信頼性/根拠性です 

他の大規模モデルと同様に、LaMDA は事前トレーニングと微調整の 2 つのステップに分かれており、微調整段階では、生成タスク (コンテキストが与えられた応答を生成する) と識別タスク (モデルが生成した応答の品質と安全性を評価する) に分かれています。事前学習モデルに適用され、微調整が実行されて LaMDA が形成されます。対話中に、LaMDA ジェネレーターは、複数ラウンドの対話コンテキストに基づいていくつかの候補応答を生成し、次に LaMDA 識別器が各候補応答の SSI と安全性スコアを予測します。セキュリティ スコアの低い候補応答が最初に除外され、残りの候補応答が SSI スコアに従って再ランク付けされ、最も高いスコアを持つものが最終応答として選択されます。LaMDA によって生成された応答のグラウンド トゥルースの信頼性を向上させるために、ユーザーと LaMDA の間の注釈付き会話のデータセットが収集され、該当する場合は検索クエリと検索結果で注釈が付けられました。次に、このデータセットで LaMDA を微調整して、ユーザー対話中に外部情報検索システムを呼び出す方法を学習し、生成された応答の信頼性を向上させます。

d64f0ff78da01606160c31ae70a89dfa.jpeg

ジュラシック-1

Jurassic-1 は、イスラエルの AI 企業 AI21 Labs によってリリースされた 1 対の自己回帰言語モデルであり、178B パラメーター モデル J1-Jumbo と 7B パラメーター モデル J1-Large で構成され、GPT-3 175B と 2 つのモデルにほぼ対応します。 GPT-3 6.7B 。

このモデルは主に GPT-3 に対してベンチマークされており、データ補完、ゼロショット学習、および少数ショット学習の観点からモデルが評価されています。Jurassic-1 モデルは GPT-3 よりも広範囲のフィールドからテキストを予測できます (ネットワーク、学術、法律、ソース コードなど)、ゼロ ショット条件で同等のパフォーマンスを達成し、より多くの例をプロンプトに含めることができるため、少数ショットでは GPT-3 よりも優れたパフォーマンスを発揮します。

MT-NLG

Megatron-Turing NLG (MT-NLG) は、Microsoft と NVIDIA が共同開発した大規模な言語モデルです。GPT-3 の 3 倍以上である 530B のパラメータを持ちます。MT-NLG は、非常に優れたゼロ、一、少数を達成しています。 -ショット学習パフォーマンス。

研究によると、このような大規模な言語モデルをトレーニングするには 2 つの課題があります。

  • 1 つは ストレージ効率 であり、すべてのモデル パラメーターを最大 GPT のメモリに時間内に収めることはもはや不可能です。

  • 2 番目は 計算効率 です。アルゴリズム、ソフトウェア、ハードウェア スタックが同時に最適化されていない場合、大量の計算操作が必要となり、トレーニング時間が非現実的に長くなる可能性があります。

 数千の GPU の可能性を最大限に活用するには、メモリと計算の両方でスケーラブルな効率的な並列処理 が必要ですこの点に関して、この論文では、DeepSpeed のパイプライン並列処理とデータ並列処理、および Megatron のテンソル スライス並列処理を組み合わせた、効率的でスケーラブルな 3D 並列ソフトウェア システムを提案しています。同時に、効率的なモデル トレーニングのためのハードウェア インフラストラクチャも導入され、トレーニングの効率と安定性が向上します。

ホリネズミ

Gopher は DeepMind がリリースした大規模な言語モデルで、パラメータは 280B を超える規模です。言語モデルと開発プロセス中に、DeepMind は、44M、117M、417M、1.4B、7.1B、280B (Gopher) を含む、異なるパラメーター サイズを持つ 6 つのモデル シリーズをトレーニングしました。モデルは 152 の異なるタスクで評価され、そのほとんどで最先端のパフォーマンスを達成しました。読解、事実確認、有害な言語認識などの分野で最大のパフォーマンス向上が見られましたが、論理的推論や数学的推論などの問題ではパフォーマンスの向上がより小さかったです。

チンチラ

Chinchilla (チンチラ) は DeepMind によってリリースされた大規模な言語モデルで、パラメーター スケールは 70B です。Chinchilla の研究は、 固定の FLOP バジェットを前提として、モデルのサイズとトレーニング トークンの数をどのようにトレードオフするかに焦点を当て ています。

Chinchilla が登場する以前の一連の大規模言語モデルでは、トレーニング データの量を一定に保ちながらモデル パラメーターのスケールを拡大していたため、コンピューティング リソースの無駄が発生し、大規模な言語モデルのトレーニングが不十分でした。計算的に最適なトレーニングを行うには、モデルのサイズとトレーニング トークンの数が等しくスケールされる必要があり、モデル パラメーターのサイズが 2 倍になると、トレーニング トークンの数も 2 倍になる必要があります。

上記の仮定に基づいて、Gopher と同じ計算予算を使用する計算最適化モデル Chinchilla がトレーニングされますが、70B のパラメーターと 4 倍のトレーニング データがあります。一方、Chinchilla は、多数の下流評価タスクにおいて、Gopher (280B)、GPT-3 (175B)、Jurassic-1 (178B)、および Megatron-Turing NLG (530B) を一貫して大幅に上回っています。Chinchilla は微調整と推論に使用する計算量が少ないため、下流での使用が大幅に容易になります。

パルム

PaLM は、2022 年に Google によって提案されたパラメータ スケール 540B の大規模言語モデルです。これは、GPT スタイルのデコーダのみの一方向自己回帰モデル構造を使用しており、少数ショットに適しています。

PaLM は、 Google が提案したPathways [12]システム (複数の TPU ポッド間で効率的にトレーニングできる新しい ML システム) を使用して 、6144 個の TPU v4 チップでトレーニングされます 

著者は、2 つの Cloud TPU v4 ポッドにわたるデータ並列処理を使用して、ポッド レベルでトレーニングをスケールします。これは、以前のほとんどの LLM と比較して大幅なスケールの増加です。PaLM は、ハードウェア FLOP 使用率 57.8% のトレーニング効率を達成します。これは、この規模で LLM によって達成される最高の効率です。PaLM は、数百の言語理解および生成ベンチマークで最先端の少数ショット学習結果を達成し、スケーリング モデルの利点を実証しています。これらのタスクの多くで、PaLM 540B は画期的なパフォーマンスを達成し、一連のマルチステップ推論タスクで微調整された SOTA モデルを上回ります。また、多くの BIG ベンチ タスクでは、モデル スケールの拡張によってパフォーマンスが不連続に向上することが示されており、モデルを最大スケールまで拡張するとパフォーマンスが急激に向上します。

27e44118fd0cb9a284b79cb8215f944f.jpeg

ユーパルム

言語モデルを拡張するとパフォーマンスが向上するため、膨大な計算コストがかかります。Google は UL2R 手法を提案しました。 これは、元の事前トレーニング済みデータを使用して、ほとんど無視できる追加の計算コストと新しいデータなしで PaLM モデルのトレーニングを継続します。これにより、下流指標での 大規模な言語モデルの拡張特性を大幅に改善できます。

UL2R を使用して PaLM をトレーニングすることにより、U-PaLM と呼ばれる 8B、62B、および 540B スケールの新しいモデル セットが導入されます。540B スケールでは、約 2 倍の計算量の節約が達成され、U-PaLM は約半分の計算予算で最終的な PaLM 540B モデルと同じパフォーマンスを達成し、多くの小規模サンプル条件で PaLM を上回ります。

UL2 [14] は生成言語モデルと双方向言語モデルを連結しており、同じモデル内でプレフィックス (非因果的) 言語モデリングとパディング (スパン破損) を混合し、モード プロンプト (モード プロンプト) を利用して切り替えるハイブリッド デノイザー目標を提案しています。ダウンストリームタスク中のモード。

オプト

OPT はメタ AI 研究者によってリリースされた大規模な事前トレーニング済み言語モデルのシリーズであり、モデルには 125M、350M、1.3B、2.7B、6.7B、13B、30B、66B、175B の 9 つの異なるパラメーター サイズとバージョンが含まれます。 175B バージョンは申請書に記入して入手する必要がありますが、他のスケール バージョンのモデルは完全にダウンロード可能で、無料で入手できます。

OPT-175B と GPT-3 のパフォーマンスは同等であり、導入に必要なエネルギー損失は GPT-3 の 1/7 だけです。 オープンソースの OPT シリーズ モデルの目的は、学術研究とコミュニケーションを促進することです 。これは、ほとんどの大規模な言語モデルのトレーニング コストが高く、ほとんどの研究者が大規模な言語モデルをトレーニングしたり使用したりする余裕がないためです。事前トレーニングされたモデルは、商業目的のためモデルの重みに完全にアクセスでき、API 呼び出しを通じてのみ結果を取得できるため、学術的なコミュニケーションや研究が妨げられます。

  • Github:metaseq/projects/OPT at main · facebookresearch/metaseq [16]

  • GitHub - facebookresearch/metaseq: 外部の大規模作業のリポジトリ[17]

ラマ

LLaMA は、Meta AI によってリリースされた基本的な言語モデルのコレクションで、7B、13B、33B、および 65B の 4 つのパラメーター スケールが含まれています。LLaMA-13B は、わずか 1/10 スケールのパラメーターを持つほとんどのベンチマークで GPT-3 (175B) を上回ります。 -65B は、業界最高のモデルである Chinchilla-70B や PaLM-540B とも競争力があります。

この作業は、 さまざまな推論予算の下で最高のパフォーマンスを達成するために、通常よりも多くのトークンを使用して一連の言語モデルをトレーニングすること、つまり、大規模なデータセットを使用して比較的小さなモデルをトレーニングし、良好なパフォーマンスを達成することに焦点を当てています Chinchilla の論文では、200B トークンで 10B スケールのモデルをトレーニングすることが推奨されていますが、LLaMA では 1.4T トークンを使用して 7B モデルをトレーニングすることで、トークンのスケールが増加し、モデルのパフォーマンスが向上し続けています。

  • Github:https://github.com/facebookresearch/llama [19]

咲く

BLOOM は、BigScience (非常に大規模な言語モデルの研究と作成に関するオープンな共同ワークショップ) の何百人もの研究者によって設計および構築された 176B パラメータのオープンソース大規模言語モデルです。同時に、BLOOM-560M、BLOOM-1.1B もオープンソース、BLOOM-1.7B、BLOOM-3B、BLOOM-7.1B、および比較的小さなパラメータを持つ他の 5 つのモデル。

BLOOM は、ROOTS コーパスでトレーニングされたデコーダー専用の Transformer 言語モデルです。ROOTS コーパスには、46 の自然言語と 13 のプログラミング言語 (合計 59) の数百のデータ ソースが含まれています。実験では、BLOOM がさまざまなベンチマークで競争力のあるパフォーマンスを達成し、マルチタスク キューで微調整した後はさらに優れた結果が得られることが実証されています。BLOOM の研究は、現在ほとんどの LLM がリソース豊富な組織によって開発されており、一般に公開されていない問題に対して LLM を使用する将来の研究と応用を促進するオープンソース LLM の開発 を目的としています。

135d04bc35d8583822ca62744ea224f6.jpeg

  • トランスフォーマー:https://huggingface.co/bigscience [21]

GLM-130B

GLM-130B は、清華大学と Zhipu AI が共同開発したオープン バイリンガル (英語-中国語) 双方向集中事前トレーニング言語モデルであり、1,300 億のパラメータを持ち、一般言語モデル (GLM [23] ) のアルゴリズムを使用しています事前トレーニング。

2022年11月、スタンフォード大学大型モデルセンターは、世界の主流大型モデル30機種の総合評価を実施し、 アジアで唯一選定された大型モデルがGLM-130Bでした GLM-130B は、広く普及している英語のベンチマークでは GPT-3 175B (davinci) を大幅に上回っていますが、OPT-175B と BLOOM-176B ではパフォーマンス上の利点は観察されませんが、関連するベンチマークでも一貫して大幅に上回っています 最大の中国語モデル ERNIE に基づいています3.0タイタン260B。GLM-130B は、ポストトレーニングなしでパフォーマンスをほとんど損なうことなく INT4 量子化を達成できます。さらに重要なのは、100B を使用して 4 × RTX 3090 (24G) または 8 × RTX 2080 Ti (11G) GPU で効果的に推論できることです。最も手頃な GPU 要件クラスモデルの場合。

b1627e6b5851a3bb135517408c9e1229.jpeg

GLM 事前トレーニング方法: 自己回帰空白埋め、および 2D 位置エンコーディングとフラグメント順序のシャッフルを追加することで、GLM による空白埋め事前トレーニングを改善します。

  • Github:https://github.com/THUDM/GLM-130B [24]

アーニー 3.0 タイタン

ERNIE 3.0 [26] は、  Baidu によってリリースされた、パラメータ サイズ 10B の 知識強化事前トレーニング大規模モデル です。ERNIE は、 自然言語理解と自然言語生成の両方を考慮した統合された事前トレーニング フレームワークを実装しているため 、ゼロショット学習、少数ショット学習、またはファインショット学習を通じて、トレーニングされたモデルを自然言語理解と生成タスクに合わせて簡単にカスタマイズできます。チューニング。

7ba0e1a80268b1e4ad89bdbec1053d85.jpeg

ERNIE 3.0 モデル フレームワーク: モデルには、統一表現モジュール (ユニバーサル表現モジュール) と 2 つのタスク固有表現モジュール (タスク固有表現モジュール)、すなわち自然言語理解 (NLU) 表現モジュールと自然言語生成表現モジュール ( NLG)

ERNIE 3.0 Titan は、Baidu と Pengcheng Lab がこれまでにリリースした 世界最大の中国の単一モデル であり、ERNIE 3.0 の拡張およびアップグレードであり、モデル パラメータ スケールは 260B に達し、GPT-3 の 50% よりも高いです。

さらに、自己監視型敵対的損失と制御可能な言語モデリング損失が事前トレーニング段階で設計されており、ERNIE 3.0 Titan が信頼できる制御可能なテキスト (信頼できる制御可能な生成) を生成できるようになります。

計算オーバーヘッドを削減するために、ERNIE 3.0 Titan はオンライン蒸留フレームワークを提案します。このフレームワークでは、教師モデルが生徒モデルを同時に教え、計算リソースをより効率的に利用できるように自身をトレーニングします。ERNIE 3.0 Titan は、68 の NLP データセットで最先端のモデルを上回るパフォーマンスを発揮します。

二、命令に合わせて調整された言語モデル

ここでの 命令[27] (命令) は、自然言語の形式でのタスクの説明を指します 

次の図に示すように、翻訳タスクの場合は、「I Love You.」という文の前に「与えられた英語の発話をフランス語のスクリプトに翻訳する」というタスク指示を追加して、実行するタスクと要件をモデルに伝えます。この方法はモデル生成の作業モデルに準拠しており、最も重要なのは、未知のタスクに対するゼロショット パフォーマンスが優れていることです。言語モデルは、さまざまなタスクを命令データ形式に変換することでさらに微調整されます。

5d0549d1f4e0ddef0c73a4c9eb5dbb40.jpeg

命令チューニングの例

次の表は、命令によって微調整された大規模なモデルを示しています。ほとんどすべてのモデルは、基本的な言語モデルに基づいて、命令の微調整、人間によるフィードバック、位置合わせ、その他の最適化操作を実行します。

512f70e984275fa44c21c248b55990c1.jpeg

大型モデルの基本情報を微調整するコマンド
db94e5b10d7f327b024bd8466aec1950.jpeg

T0

T0 は、Hugging Face と 42 人の研究者によって開発された大規模なマルチタスク データセットに基づいて微調整された T5 モデルに基づくモデルです。この研究の目的は、モデルのサイズを大幅に拡大することなく、未知のタスク (ゼロショット パフォーマンス) に対してモデルをより適切に一般化し、プロンプトの文言の選択と変更に対してより堅牢になるようにガイドすることです。

研究では、あらゆる自然言語タスクを人間が判読できる形式のプロンプトにマッピングできるシステムを開発し、それぞれが複数のプロンプトと異なる文言を含む多数の教師付きデータセットを変換します。この論文では、T5 モデルのさまざまな微調整について説明しています。タスクのマルチタスク データのエンコーダ デコーダ構造。T0 は、複数の標準データセットでのゼロショット パフォーマンスにおいて、16 倍大きい GPT-3 モデルを上回ります。

2bab5438d9b97b7dc6d04e27e9caf488.jpeg

フラン

FLAN は、LaMDA 137B モデルをベースに Google がさらに命令チューニングを行ったモデルであり、 命令の微調整により、未知のタスクに対する言語モデルのゼロショット性能と汎化能力が向上します ゼロショット実験では、評価された 25 個のデータセットのうち 20 個で FLAN が GPT-3 175B を上回りました。FLAN は、ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA、StoryCloze において、数ショットの GPT-3 よりも大幅に優れたパフォーマンスを発揮します。この論文のアブレーション実装は、微調整データセットの数、モデル サイズ、自然言語命令が命令微調整の成功の鍵であることを示しています。

cc312e0e0c8e3718b7c98569b4e8c63c.jpeg

フラン-LM

Flan-LM は、Flan-T5 (11B)、Flan-PaLM (540B) などの命令 (命令) データセットを使用して、既存の T5、PaLM、U-PaLM 基本モデルに基づいて Google によって微調整された一連の言語モデルです。 )、Flan-U-PaLM (540B)、命令データセットの言語モデルを微調整することで、モデルのパフォーマンスと未知のタスクへの一般化が向上します。この研究は主に、 モデル サイズと微調整タスクの数を拡張することによって、命令微調整スケーリングの効果を研究します 。Muffiffin (80 タスク)、T0-SF (193 タスク)、NIV2 (1554 タスク) という以前の 4 つのタスクを統合することにより、この作業では、命令微調整タスクを 1,836 に拡張し、同時に CoT データを微調整してモデルの論理的推論能力を向上させます。実験では、命令の微調整により、事前トレーニングされた言語モデルの一般的なメソッドだけでなく、さまざまなヒント設定 (ゼロショット、少数ショット、CoT) や評価ベンチマークのパフォーマンス (Flan-PaLM など) のパフォーマンスと使いやすさが大幅に向上することが実証されています。 540B 命令は、PaLM 540B を大幅に上回り (平均 +9.4%)、複数のベンチマークにわたって最先端のパフォーマンスを達成します。

c1767b4622a9d48a097f2a426df4d23f.jpeg

ブルームズ & mT0

前述の T0 や FLAN などの命令微調整モデルは、マルチタスク ヒント微調整 (MTF) がゼロショット条件下で大規模モデルを新しいタスクに一般化するのに役立つことを証明しています。MTF の探索は主に英語のデータとモデル。

Hugging Face は、 事前トレーニング済みの多言語 BLOOM および mT5 モデル ファミリに MTF を適用し 、BLOOMZ および mT0 と呼ばれる微調整された命令のバリアントをリリースします。研究実験では、英語のプロンプトを使用した英語タスクの多言語大規模モデルを微調整すると、事前トレーニングでのみ表示される非英語のタスクにタスクを一般化できることがわかりました。英語のプロンプトを使用して多言語タスクを微調整すると、英語と英語の両方がさらに向上します。さまざまな最先端のゼロショット結果を達成するタスクのパフォーマンス。この論文では、各データの言語に合わせて英語から翻訳されたプロンプトを使用する多言語タスクの微調整についても研究しています。を設定し、実験により、翻訳のプロンプトが、対応する人間の言語プロンプトのパフォーマンスを向上させることができることがわかりました。この実験では、モデルがこれまで見たことのない言語タスクに対してゼロショット汎化を実行できることもわかり、これらのモデルがタスクや言語から独立した高レベルの機能を学習していると推測されました。

GPT-3.5

GPT-3.5 は GPT-3 から進化した一連のモデルで、下図に示すように、初期の GPT-3 から GPT-3.5、ChatGPT まで一連の最適化と進化が行われてきました。画像出典: The Secret of ChatGPT Evolution [33] および GPT-3.5 のさまざまな機能の起源を解体して追跡する[34]の参考記事では、GPT-3.5 の進化過程を以下に整理しています。

  • 2020 年 7 月に GPT-3 がリリースされました 。オリジナルの GPT-3 基本モデルには主に davinci、curie、ada、babbage の 4 つの異なるバージョンが含まれています。その中で davinci が最も強力で 、その後の最適化はこれに基づいています。

  • 2021 年 7 月に、Codex [35]がリリースされました。これは、コード データに対して GPT-3 を微調整することによって取得され、code-davinci-001 と code-cushman-001 の 2 つのモデル バージョンに対応します。

  • 2021 年 3 月に、 davinci-instruct-beta1 モデル を取得するために GPT-3 命令を微調整する InstructGPT [36]論文を公開します (人間のデモンストレーションで教師付き微調整) 、命令データと既に作成されたモデルからサンプルを生成します。アノテーターによってスコア付けおよびフィードバックされる データを微調整して text-davinci-001 を取得します。InstructGPT 論文の元のモデルは davinci-instruct-beta に対応します。

  • 2021 年 6 月に code-davinci-002 がリリースされました 。これは最も強力な Codex モデルであり、テキストとコード データでトレーニングされ、自然言語をコードに変換してコードを完成させることに特に優れています。

  • 2021 年 6 月に、 code-davinci-002 に基づいて教師あり命令を微調整して取得されたtext-davinci-002 をリリースします 。

  • 2021 年 11 月に、text-davinci-003 と ChatGPT [37]がリリースされ ました。どちらも、text-davinci-002 に基づいて、ヒューマン フィードバック強化学習 RLHF を使用してさらに微調整および最適化されました。

ef630ea9abf7353abecf5bfc57465004.jpeg

チャットGPT

ChatGPT は GPT-3.5 に基づいて微調整されており、微調整 にはヒューマン フィードバックからの強化学習手法 (Reinforcement Learning from Human Feedback, RLHF) が 使用されます。ここでの人間によるフィードバックは、実際には手動でデータにラベルを付けて LLM を継続的に微調整することです。主な目的は、人間のコマンド(テキスト生成の質問、知識の回答の質問、ブレーンストーミングの質問などのさまざまな種類のコマンドなど) の意味を LLM に理解させることです 。 、など)、LLM に、特定のプロンプト入力コマンド(ユーザーの質問)に対して 、どのような種類の回答出力が高品質であるか (情報が豊富、内容が豊富、ユーザーに役立つ、無害、差別的表現が含まれていない)を判断することを学習させます。情報等の基準)。

実際、GPT-1 から GPT-3.5 まで、より大きな言語モデルはより強力な言語理解および生成能力を備えていますが、本質的にはユーザーの指示の意図をより良く追従または理解することはできないことがわかります。たとえば、大規模な言語モデルは、次の単語を予測するという言語モデルのトレーニング目標がユーザーの目標意図と一致しないため、ユーザーにとって虚偽、有害、または役に立たない出力を生成する可能性があります。言語モデルを人間の意図と一致させるために、ChatGPT は人間の注釈とフィードバックを導入し、強化学習アルゴリズムを通じて大規模な言語モデルを微調整し、さまざまなタスクで言語モデルをユーザーの意図と一致させる方法を示します。人間が望むコンテンツを出力します。

c4189b27b6496bd85a87346c27dfa9be.jpeg

GPT-4

GPT-4 は OpenAI が ChatGPT の後にリリースした大規模なマルチモーダル モデルで、これまでの GPT シリーズ モデルはプレーン テキストの入出力のみをサポートする言語モデルでしたが、GPT-4 は画像とテキストを入力として受け入れ、テキスト出力を生成することができます。GPT-4 はまだ、Transformer の自己回帰構造に基づいた事前トレーニング モデルです。OpenAI のブログでは、カジュアルな会話では GPT-3.5 と GPT-4 の違いはわずかである可能性があり、タスクの複雑さが十分なしきい値に達すると違いが現れる、つまり GPT-4 は GPT-4 よりも優れていると述べています。 3.5 より信頼性が高く、より創造的で、よりきめ細かい指示を処理できます。GPT-4 は、現実世界の多くのシナリオでは人間より劣るものの、模擬司法試験の合格や受験者の上位 10% 程度の得点など、さまざまな専門的および学術的なベンチマークで人間レベルのパフォーマンスを実証しています。ChatGPT RLHF の方法と同様に、アライメント (調整) トレーニング プロセスは、モデルの事実性と予想される動作への準拠性のパフォーマンスを向上させることができ、意図を理解する強力な能力を備え、GPT-4 のセキュリティを大幅に最適化および改善しました。推進する。

アルパカ

Alpaca (アルパカ) モデルは、スタンフォード大学のオープンソース LLaMA-7B モデルを Meta に基づいて微調整することによって得られた命令追従言語モデルです。学術予算の制約がある場合、高品質の命令追従モデルをトレーニングするには、主に 2 つの課題に直面します: 強力な事前トレーニング済み言語モデルと高品質の命令追従データです。著者は OpenAI の text-davinci-003 モデルを使用して、 -instruct [ 41 ] は、サンプル データに従う 52K の命令を生成する方法であり、これらのデータを使用して教師付き方法で LLaMA-7B をトレーニングし、Alpaca モデルを取得します。テストでは、Alpaca の多くの動作は text-davinci-003 と類似しており、パラメーターが 7B しかない軽量モデルである Alpaca のパフォーマンスは、GPT-3.5 などの非常に大規模な言語モデルのパフォーマンスに匹敵します。

6fab1fc8a92ab72706f19b1782f7a9d0.jpeg

アルパカの訓練図
  • ブログ: https://crfm.stanford.edu/2023/03/13/alpaca.html [42]

  • Github:https://github.com/tatsu-lab/stanford\_alpaca [43]

Alpaca-LoRA [44] は 、低ランク適応 \(LoRA\) [45] を使用して Alpaca の結果を再現し、民生用グラフィックス カードを使用して 7B モデルの微調整を数時間で完了できます。

Alpaca は主に英語のタスクをサポートしているため、多くの作品が Alpaca に基づいて他の言語のモデルをさらにトレーニングしています。たとえば、韓国の羊 KoAlpaca [46]、日本のアルパカ Japanese-Alpaca-LoRA [47] などです。中国のタスクについては、国内のオープンソースは、LLaMA に基づくチャイニーズ-ビクーニャ (小さなアルパカ) モデル[48]および Luotuo (ラクダ):チャイニーズ-アルパカ-ロラ[49]に基づくアルパカの訓練方法を参照しています。

ba74b6272ba249582a85c462c7014545.jpeg

チャットGLM

ChatGLM は、清華大学の知識工学 (KEG) 研究室とその技術成果によって開発された会社であり、以前にオープンソースであった GLM-130B [51] 1,000 億ベースの言語モデルに基づいて開発されています 。ChatGLMは、ChatGPTの設計思想を参考にし、教師ありファインチューニング、フィードバックブートストラップ、ヒューマンフィードバック強化学習(ヒューマンフィードバックからの強化学習)などの手法により、1,000億ベースモデルGLM-130Bにコードの事前トレーニングを注入し、実現します。人間の意図の調整。

同時に、62 億パラメータを備えた ChatGLM-6B [52]がオープンソース化されており、モデル量子化テクノロジと組み合わせることで、ユーザーは消費者グレードのグラフィックス カードにローカルに展開できます (INT4 量子化レベルで必要なビデオ メモリは 6 GB のみです) 1,000億モデルほど規模は大きくありませんが、ユーザー導入の敷居が大幅に下がり、人間の好みにかなり合った答えを導き出すことができました。

  • ブログアドレス: https://chatglm.cn/blog [53]

アーニーボット

ERNIE Bot は Baidu の Wenxin Yiyan で、ERNIE シリーズの大型モデルをベースに構築された ChatGPT ライクな対話モデルです、詳しくは分かりませんが…

吟遊詩人

Bard は、ChatGPT をベンチマークするために LaMDA に基づいて Google によって開発された対話言語モデルです。現在、英語の対話のみをサポートしており、予約訪問の場合は米国と英国のユーザーに限定されています。その他は不明です...

推奨読書:

私の2022年のインターネットスクール募集の共有

私の2021年のまとめ

アルゴリズムポストと開発ポストの違いについての話

インターネットスクール採用・研究開発・給与概要

2022年のネット就活状況、もうすぐ金9銀10が銅9鉄10になります!

公開番号:AIカタツムリカー

謙虚さを保ち、規律を保ち、改善し続ける

d5980cd32e0d599098133d8ce4831738.jpeg

【カタツムリ】を送って「ハンズオンAIプロジェクト」(AIカタツムリカー著)を入手

[1222] を送信して、適切な leetcode ブラッシングノートを入手してください

[AI Four Classics] を送信する 4 つの古典的な AI 電子書籍を入手する

おすすめ

転載: blog.csdn.net/qq_33431368/article/details/132178977