1. 第 1 週のリソース
以下は、今週のビデオで説明されている研究論文へのリンクです。これらの文書で説明されている技術的な詳細をすべて理解する必要はありません。クイズに答えるために必要な最も重要なポイントは講義ビデオで確認済みです。
ただし、元の研究を詳しく知りたい場合は、以下のリンクからこれらの論文や記事を読むことができます。
1.1 変圧器のアーキテクチャ
- 必要なのは注意力です 「必要なのは注意力だけです」
- この記事では、Transformer アーキテクチャとコアとなる「セルフアテンション」メカニズムを紹介します。この記事は LLM の基礎です。
- BLOOM:BigScience 176B模型《BLOOM: BigScience 176B Model 》
- BLOOM は、オープンかつ透過的な方法でトレーニングされた 176B パラメータ (GPT-4 と同様) を備えたオープンソース LLM です。この論文では、著者らはモデルのトレーニングに使用されるデータセットと手順について詳しく説明します。ここでモデルの概要を確認することもできます。
- ベクトル空間モデル 「ベクトル空間モデル」
- DeepLearning.AI の自然言語処理スペシャライゼーション コース シリーズでは、ベクトル空間モデルの基礎と言語モデリングへのその応用について説明します。
1.2 事前トレーニングとスケーリングのルール
- 神経言語モデルのスケーリング則 「神経言語モデルのスケーリング則」
- OpenAI の研究者による、大規模な言語モデルのスケーリング則を調査する実証研究。
1.3 モデルのアーキテクチャと事前トレーニングの目的
- ゼロショット汎化にはどの言語モデル アーキテクチャと事前トレーニング ターゲットが最適ですか? 《ゼロショット汎化に最適な言語モデルのアーキテクチャと事前トレーニングの目的は何ですか?》
- この論文では、大規模な事前トレーニング済み言語モデルにおけるモデリングの選択肢を検討し、ゼロショット汎化に最適な方法を特定します。
- HuggingFace ライブラリを使用したさまざまな機械学習タスク用のリソースのコレクション。
- LLaMA: オープンかつ効率的な基盤言語モデル 「LLaMA: オープンかつ効率的な基盤言語モデル」
- Meta AI によって提案された効率的な LLM の記事 (130 億のモデルは、ほとんどのベンチマークで 1,750 億のパラメーターを持つ GPT3 を上回ります)
1.4 スケーリング則と最適モデルの計算
- 言語モデルは少数回の学習者です "言語モデルは少数回の学習者です"
- この論文では、大規模な言語モデルにおける少数ショット学習の可能性を調査します。
- 計算最適な大規模言語モデルのトレーニング "計算最適な大規模言語モデルのトレーニング"
- DeepMind による研究。LLM をトレーニングするための最適なモデル サイズとトークン数を評価しています。「チンチラ文書」とも呼ばれる。
- BloombergGPT: 金融分野の大規模言語モデル 「BloombergGPT: 金融分野の大規模言語モデル」
- 金融分野に特化して訓練を受けた LLM は、チンチラの法則に従おうとする良い例です。
2.ブルームバーグGPT
BloombergGPT は、Bloomberg によって開発された大規模なデコーダ専用言語モデルです。ニュース記事、レポート、市場データなどの幅広い金融データセットを使用して事前トレーニングされており、金融への理解を強化し、金融関連の自然言語テキストを生成できるようになります。データセットは上の図に示されています。
BloombergGPT のトレーニング中に、著者らはチンチラ スケーリング則を使用して、モデル内のパラメーターの数とトークン単位で測定されるトレーニング データの量をガイドしました。Chinchilla の提案は、図の Chinchilla-1、Chinchilla-2、および Chinchilla-3 の行で表されており、BloombergGPT がそれに非常に近いことがわかります。
チームが利用できるトレーニング コンピューティング予算の推奨構成は 500 億のパラメーターと 1.4 兆のトークンですが、金融ドメインで 1.4 兆のトークンに関するトレーニング データを取得するのは困難であることが判明しました。したがって、計算された最適値より少ない 7,000 億トークンのみを含むデータセットを構築しました。また、早期に停止したため、トレーニング プロセスは 5,690 億トークンを処理した後に終了しました。
BloombergGPT プロジェクトは、ドメインの特異性を高めるためにモデルの事前トレーニングを行う方法と、最適なモデルの計算とトレーニング構成の間でトレードオフを迫られる可能性がある課題を示す好例です。
BloombergGPT の記事はここで読むことができます。
参考
- https://www.coursera.org/learn/generative-ai-with-llms/supplement/Adylf/domain-specific-training-bloomberggpt
- https://www.coursera.org/learn/generative-ai-with-llms/supplement/kRX5c/week-1-resources