最近の大規模な言語モデルの急速な発展には誰もが驚かされていますが、LLM の急速な発展はカンブリア紀の爆発に匹敵するものであり、さまざまなモデル間の関係も混乱しているように感じます。最近、一部の学者が ChatGPT などの言語モデルの開発の進化系図を作成し、LLM 間の関係が一目でわかるようにしました。
論文: https://arxiv.org/abs/2304.13712
Github (関連リソース): https://github.com/Mooler0410/LLMsPracticalGuide
最も重要な進化の樹形図は次のとおりです。
進化の樹形図
現代言語モデルの進化ツリーでは、近年の言語モデルの発展を追跡し、最も有名なモデルのいくつかに焦点を当てています。同じブランチ上のモデルはより近くにあります。トランスベースのモデルは、灰色以外の色で表示されます。デコーダのみのモデルは青色のブランチとして表示され、エンコーダのみのモデルはピンク色のブランチとして表示され、エンコーダ/デコーダ モデルは緑色のブランチとして表示されます。時間軸上のモデルの縦位置は発売日を表します。オープンソース モデルは黒四角で表され、クローズドソース モデルは白四角で表されます。右下の積み上げ棒グラフは、各企業および機関のモデル数を示します。
次に年ごとの進化の動画があり、主な内容は上の写真と同じです。
論文の内容の紹介 (実践における LLM のパワーの活用: ChatGPT 以降に関する調査)
論文アドレス: https://arxiv.org/abs/2304.13712
傾向
a) デコーダのみのモデルが言語モデルの開発の主流を徐々に支配していきます。言語モデル開発の初期段階では、デコーダのみのモデルは、エンコーダのみのモデルやエンコーダ/デコーダのモデルよりも人気がありませんでした。ただし、2021 年以降、革新的な言語モデル GPT-3 の導入により、デコーダー専用モデルが大きなブームを迎えます。同時に、BERT によって引き起こされた最初の爆発の後、エンコーダのみのモデルは徐々に消え始めました。
b) OpenAI は、現在も将来も、言語モデルの分野で常に主導的な地位を維持してきました。他の企業や機関は、OpenAI に追いつき、GPT-3 や現在の GPT-4 に匹敵するモデルを開発しようとしています。このリードは、当初は広く認識されていなかったにもかかわらず、OpenAI がその技術ラインを堅持したことに起因すると考えられます。
c) Meta はオープンソース言語モデルに多大な貢献をし、言語モデルの研究を促進しました。オープンソース コミュニティへの貢献、特に言語モデルに関連する貢献を考慮すると、Meta が開発したすべての言語モデルがオープンソースであるため、Meta は最も寛大な営利企業の 1 つとして際立っています。
d) 言語モデルはクローズドソースの傾向を示しています。言語モデル開発の初期段階 (2020 年以前) では、ほとんどのモデルがオープンソースです。しかし、GPT-3 の導入により、企業は PaLM、LaMDA、GPT-4 などのモデルをクローズドソース化する傾向が強まっています。その結果、学術研究者が言語モデルのトレーニングを実験することがより困難になります。したがって、API ベースの研究が学術界の主流のアプローチになる可能性があります。
e) エンコーダ/デコーダ モデルは、そのようなアーキテクチャがまだ活発に研究されており、ほとんどがオープンソースであるため、依然として有望です。Google は、オープンソースのエンコーダ/デコーダ アーキテクチャに多大な貢献をしてきました。ただし、デコーダのみのモデルの柔軟性と多用途性を考えると、Google がこの方向に固執する可能性は低くなったようです。
結論として、近年はデコーダ専用モデルとオープンソース モデルが主流となっていますが、OpenAI と Meta は言語モデルの革新とオープンソースの推進に大きく貢献しています。同時に、エンコーダ/デコーダ モデルやクローズドソース モデルも開発をある程度推進してきました。企業や機関は、技術開発の過程でさまざまな見通しに直面しています。
モデルのための実践ガイド
LLM の実用的なガイド リソースの厳選された (そして現在も積極的に更新されている) リスト。これは、調査論文「Harnessing the Power of LLM in Practice: A Survey on ChatGPT and Beyond」に基づいています。これらのリソースは、実践者が大規模言語モデル (LLM) とそのアプリケーションを自然言語処理 (NLP) アプリケーションにナビゲートできるように設計されています。
BERT スタイルの言語モデル: エンコーダー-デコーダーまたはエンコーダーのみ
- BERT BERT: 言語理解のためのディープ双方向トランスフォーマーの事前トレーニング、2018 年、 論文
- RoBERTa ALBERT: 言語表現の自己教師あり学習のためのライト BERT、2019 年、 論文
- DistilBERT DitilBERT、BERT の蒸留版: より小さく、より速く、より安く、より軽く、2019 年、 紙
- ALBERT ALBERT: A Lite BERT for Self-supervised Learning of Language Representations、2019 年、 論文
- UniLM 自然言語の理解と生成のための統一言語モデルの事前トレーニング、2019 年の 論文
- ELECTRA ELECTRA: ジェネレーターではなくディスクリミネーターとしてテキスト エンコーダーを事前トレーニングする、2020 年、 論文
- T5 「統合された Text-to-Text Transformer を使用した転移学習の限界の探求」。 コリン・ラフェルら。 JMLR 2019. 論文
- GLM 「GLM-130B: オープンバイリンガル事前トレーニング済みモデル」。2022. 紙
- AlexaTM 「AlexaTM 20B: 大規模多言語 Seq2Seq モデルを使用した少数ショット学習」。 サレハ・ソルタン 他 arXiv 2022. 論文
- ST-MoE ST-MoE: 安定した転送可能なスパース エキスパート モデルの設計。2022 年の 論文
GPT スタイルの言語モデル: デコーダーのみ
- GPT 生成的事前トレーニングによる言語理解の向上。2018. 論文
- GPT-2 言語モデルは教師なしマルチタスク学習者です。2018. 論文
- GPT-3 「言語モデルは少数回の学習者である」。NeurIPS 2020. 論文
- OPT "OPT: 事前トレーニングされた Transformer 言語モデルを開く"。2022. 紙
- PaLM 「PaLM: パスウェイによる言語モデリングのスケーリング」。 Aakanksha Chowdhery et al. arXiv 2022. 論文
- BLOOM 「BLOOM: 176B パラメーターのオープンアクセス多言語モデル」。2022. 紙
- MT-NLG 「DeepSpeed と Megatron を使用して、大規模な生成言語モデルである Megatron-Turing NLG 530B をトレーニングする」。2021. 紙
- GLaM 「GLaM: 専門家の混合による言語モデルの効率的なスケーリング」。ICML 2022. 論文
- Gopher 「言語モデルのスケーリング: Gopher のトレーニングからの方法、分析、および洞察」。2021. 紙
- chinchilla 「コンピューティングに最適な大規模言語モデルのトレーニング」。2022. 紙
- LaMDA 「LaMDA: ダイアログ アプリケーションの言語モデル」。2021. 紙
- LLaMA 「LLaMA: オープンで効率的な基盤言語モデル」。2023. 紙
- GPT-4 「GPT-4テクニカルレポート」。2023. 紙
- BloombergGPT BloombergGPT: 金融のための大規模言語モデル、2023 年、 論文
- GPT-NeoX-20B: 「GPT-NeoX-20B: オープンソースの自己回帰言語モデル」。2022. 紙
データの実践ガイド
事前トレーニングデータ
- レッドパジャマ、 2023.レポ
- The Pile: An 800GB Dataset of Diverse Text for Language Modeling、Arxiv 2020. 論文
- 事前トレーニングの目標は、大規模言語モデルが言語特性について学習する内容にどのような影響を与えるのでしょうか? 、ACL 2022。 論文
- 神経言語モデルのスケーリング則、2020 年。 論文
- データ中心の人工知能: 調査、2023 年。 論文
- GPTはどのようにしてその能力を獲得するのでしょうか?言語モデルの創発的な能力をそのソースまで追跡する、2022 年。 ブログ
データを微調整する
- ゼロショット テキスト分類のベンチマーク: データセット、評価および含意アプローチ、EMNLP 2019。 論文
- 言語モデルはフューショット学習者、NIPS 2020. 論文
- LLM の合成データ生成は臨床テキストマイニングに役立ちますか? Arxiv 2023 論文
テストデータ/ユーザーデータ
- 自然言語理解における大規模言語モデルのショートカット学習: 調査、Arxiv 2023. 論文
- ChatGPT の堅牢性について: 敵対的かつ配布外の視点 Arxiv、2023 年。 論文
- SuperGLUE: 汎用言語理解システムのより粘着性の高いベンチマーク Arxiv 2019. 論文
NLP タスクの実践ガイド
研究者らは、LLM を選択したり、ユーザーの NLP アプリケーションのモデルを微調整したりするための意思決定フロー ~\protect\footnotemark を構築しました。この決定プロセスは、ユーザーが手元のダウンストリーム NLP アプリケーションが特定の基準を満たしているかどうかを評価し、その評価に基づいて、LLM または微調整されたモデルがアプリケーションに最適であるかどうかを判断するのに役立ちます。
従来の非言語処理タスク (NLU タスク)
- 民事コメント データセットにおける有害なコメント分類のベンチマーク Arxiv 2023 Paper
- chatgpt は汎用の自然言語処理タスク ソルバーですか? Arxiv 2023論文
- ニュース要約のための大規模言語モデルのベンチマーク Arxiv 2022 論文
ビルドタスク
- gpt-3 Arxiv 2022 論文時代のニュース要約と評価
- chatgpt は優れた翻訳者ですか? はい、エンジンとして gpt-4 を使用します Arxiv 2023 Paper
- WMT21 共有タスク用の Microsoft の多言語機械翻訳システム、WMT2021 論文
- ChatGPTも理解できるのでしょうか?chatgpt と微調整された bert の比較研究、Arxiv 2023、 論文
知識集約的なタスク
- 大規模なマルチタスクの言語理解を測定する、ICLR 2021 論文
- 模倣ゲームを超えて: 言語モデルの機能の定量化と推定、Arxiv 2022 論文
- 逆スケーリング賞、2022 リンク
- アトラス: 検索拡張言語モデルを使用した少数ショット学習、Arxiv 2022 論文
- 大規模言語モデルは臨床知識をエンコードする、Arxiv 2022 論文
ズーム機能
- コンピューティングに最適な大規模言語モデルのトレーニング、NeurIPS 2022 論文
- 神経言語モデルのスケーリング則、Arxiv 2020 論文
- プロセスおよび結果ベースのフィードバックを使用して数学の文章問題を解決する、Arxiv 2022 論文
- 思考の連鎖が大規模言語モデルで推論を引き出す、NeurIPS 2022 Paper
- 大規模言語モデルの創発能力、TMLR 2022 論文
- 逆スケーリングは U 字型になる可能性がある、Arxiv 2022 Paper
- 大規模言語モデルでの推論に向けて: 調査、Arxiv 2022 論文
特定のタスク
- 外国語としての画像: すべての視覚および視覚言語タスクのための BEiT 事前トレーニング、Arixv 2022 論文
- PaLI: 共同スケールの多言語画像モデル、Arxiv 2022 論文
- AugGPT: テキスト データ拡張のための ChatGPT の活用、Arxiv 2023 論文
- gpt-3 は優れたデータ アノテーターですか? 、Arxiv 2022 論文
- ラベル貼りのコストを削減したいですか? GPT-3 は役立ちます、EMNLP 調査結果 2021 論文
- GPT3Mix: テキスト拡張のための大規模言語モデルの活用、EMNLP の調査結果 2021 年 論文
- 患者と治験のマッチングのための LLM: パフォーマンスと汎用性の向上に向けたプライバシーを意識したデータ拡張、Arxiv 2023 論文
- ChatGPT はテキスト注釈タスクでクラウドワーカーを上回ります、Arxiv 2023 論文
- G-Eval: GPT-4 を使用した NLG 評価と人間のより良いアライメント、Arxiv 2023 論文
- GPTScore: 希望どおりに評価、Arxiv 2023 論文
- 大規模言語モデルは翻訳品質の最先端の評価者である、Arxiv 2023 論文
- ChatGPT は優れた NLG 評価ツールですか? 予備調査、Arxiv 2023 論文
現実世界の「タスク」
- 汎用人工知能の火花: GPT-4 による初期の実験、Arxiv 2023 論文
効率
1. コスト
- Openai の gpt-3 言語モデル: 技術概要、2020。 ブログ投稿
- クラウド インスタンスにおける AI の炭素強度の測定、FaccT 2022。 論文
- AI では、大きいほど常に良いのでしょうか? 、ネイチャー記事 2023 。
- 言語モデルは Few-Shot Learners、NeurIPS 2020 です。論文
- 価格、OpenAI。 ブログ投稿
2. 遅延
- HELM: 言語モデルの全体的評価、Arxiv 2022。 論文
3. パラメータの効率的な微調整
- LoRA: 大規模言語モデルの低ランク適応、Arxiv 2021。 論文
- Prefix-Tuning: Optimizing Continuous Prompts for Generation、ACL 2021. 論文
- P チューニング: 迅速なチューニングは、スケールやタスク全体での微調整に匹敵する可能性があります、ACL 2022。 論文
- P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks (Arxiv 2022)、 論文
4. 事前研修制度
- ZeRO: 兆パラメータ モデルのトレーニングに向けたメモリの最適化、Arxiv 2019。 論文
- Megatron-LM: モデル並列処理を使用した数十億パラメーター言語モデルのトレーニング、Arxiv 2019。 論文
- Megatron-LM を使用した GPU クラスターでの効率的な大規模言語モデル トレーニング、Arxiv 2021。 論文
- 大規模変圧器モデルにおけるアクティベーション再計算の削減、Arxiv 2021。 論文
クレジット
- 堅牢性と校正
- 使用前に調整する: 言語モデルの数ショット パフォーマンスの向上、ICML 2021。 論文
- SPeC: A Soft Prompt-Based Calibration on Mitigating Performance Variability in Clinical Notes Summarization、Arxiv 2023. 論文
2. 偽りのバイアス
- 自然言語理解における大規模言語モデルのショートカット学習: 調査、2023 年の 論文
- キャプション システムにおけるジェンダー バイアスの軽減、WWW 2020 論文
- 使用前に調整: 言語モデルの少数ショット パフォーマンスの改善、ICML 2021 論文
- ディープ ニューラル ネットワークにおけるショートカット学習、Nature Machine Intelligence 2020 論文
- プロンプトベースのモデルはプロンプトの意味を本当に理解しているのでしょうか? 、NAACL 2022 論文
3. セキュリティの問題
- GPT-4 システム カード、2023 年 論文
- LLM で生成されたテキストの検出の科学、Arxiv 2023 論文
- 言語を通じてステレオタイプがどのように共有されるか: 社会的カテゴリーとステレオタイプのコミュニケーション (scsc) フレームワークのレビューと紹介、コミュニケーション研究のレビュー、2019 年の 論文
- ジェンダーの色合い: 商業性別分類における交差精度格差、FaccT 2018 論文
ベンチマーク命令のチューニング
- FLAN: 微調整された言語モデルはゼロショット学習者である、Arxiv 2021 論文
- T0: マルチタスク プロンプト トレーニングによりゼロショット タスクの一般化が可能になる、Arxiv 2021 論文
- 自然言語によるクラウドソーシング指示によるクロスタスクの一般化、ACL 2022 論文
- Tk-INSTRUCT: Super-NaturalInstructions: 1600+ NLP タスクの宣言的命令による一般化、EMNLP 2022 論文
- FLAN-T5/PaLM: スケーリング命令 - 微調整された言語モデル、Arxiv 2022 論文
- Flan コレクション: 効果的な命令チューニングのためのデータとメソッドの設計、Arxiv 2023 論文
- OPT-IML: 一般化のレンズを通したスケーリング言語モデル命令メタ学習、Arxiv 2023 論文
位置合わせ
- 人間の好みからの深層強化学習、NIPS 2017 論文
- 人間のフィードバックから要約する方法を学ぶ、Arxiv 2020 論文
- アライメントのための実験室としての一般言語アシスタント、Arxiv 2021 論文
- 人間のフィードバックからの強化学習による有益で無害なアシスタントのトレーニング、Arxiv 2022 論文
- 検証済みの引用符で回答をサポートする言語モデルの教育、Arxiv 2022 Paper
- InstructGPT: 人間のフィードバックによる指示に従う言語モデルのトレーニング、Arxiv 2022 Paper
- 人間の的を絞った判断による対話エージェントの調整の改善、Arxiv 2022 論文
- 報酬モデルの過剰最適化のためのスケーリング則、Arxiv 2022 論文
- スケーラブルな監視: 大規模言語モデルのスケーラブルな監視の進捗状況の測定、Arxiv 2022 論文
安全な校正 (無害)
- 言語モデルを使用したレッド チーミング言語モデル、Arxiv 2022 論文
- 憲法上の AI: AI フィードバックによる無害性、Arxiv 2022 論文
- 大規模言語モデルにおける道徳的自己修正の能力、Arxiv 2023 論文
- OpenAI: AI の安全性に対する当社のアプローチ、2023 年の ブログ
信頼性の一貫性 (正直さ)
- 言語モデルの強化学習、2023 年の ブログ
ヒント実践ガイド (役立つ)
オープンソース コミュニティの取り組み
- Self-Instruct: 言語モデルと自己生成命令の調整、Arxiv 2022 論文
- アルパカ。 リポ
- ビクーニャ。 リポ
- ドリー。 ブログ
- ディープスピードチャット。 ブログ
- GPT4すべて。 リポ
- アシスタントを開きます。 リポ
- チャットGLM。 リポ
- モス。 リポ
- ラミネート。 レポ/ブログ
役に立つと感じる友人は、Sanlian に同意、フォロー、共有することを歓迎します。^-^