LLM のドメイン適応の事前トレーニング

これまで、アプリケーションを開発するときは、通常、既存の LLM を使用することを強調してきました。これにより時間を大幅に節約し、動作するプロトタイプをより迅速に作成できます。

ただし、独自のモデルを最初から事前トレーニングする必要がある場合があります。ターゲット ドメインが日常言語では一般的に使用されない語彙や言語構造を使用している場合、良好なモデルのパフォーマンスを達成するためにドメインの適応が必要になる場合があります。

たとえば、あなたが弁護士やパラリーガルが法的概要を要約するのを支援するアプリケーションを構築している開発者であると想像してください。法律文書では、最初の例では「男性レア」、2 番目の例では「既判力」など、非常に特殊な用語が使用されます。これらの単語は法律の世界以外ではめったに使用されないため、既存の LLM のトレーニング テキストに広く登場する可能性は低いと考えられます。したがって、モデルはこれらの用語を理解したり、正しく使用したりすることが難しい場合があります。
ここに画像の説明を挿入

もう 1 つの問題は、3 番目の例の「考慮」のように、法律用語がさまざまな文脈で日常的な単語を使用することがあることです。これは親しみやすさとは何の関係もありませんが、契約を強制するための契約の主な要素を指します。同様の理由で、既存の LLM を医療アプリケーションで使用しようとすると、問題が発生する可能性があります。

医療用語には、病状や処置を説明するために一般的には使用されない用語が多数含まれています。これらは、Web スクレイピングや書籍のテキストで構成されるトレーニング データセットには存在しない場合があります。一部のドメインでは、非常に特異な方法で言語を使用しています。

この最後の医療用語の例は、単なるランダムな文字列である可能性がありますが、実際には医師が処方箋を書くために使用する省略表現です。このテキストは薬剤師にとって非常に意味があり、1 錠を 1 日 4 回、食後と就寝時に経口摂取することを意味します。
ここに画像の説明を挿入

モデルは元の事前トレーニング タスクを通じて語彙と言語理解を学習するため、モデルを最初から事前トレーニングすると、法律、医学、金融、科学などの高度に専門化された分野向けに優れたモデルが生成されます。

さて、ブルームバーグ GPT に戻りましょう。ブルームバーグの Shijie Wu 氏、Steven Lu 氏、および同僚による論文で 2023 年に初めて発表されました。BloombergGPT は、特定のドメインである金融向けに事前トレーニングされた大規模な言語モデルの一例です。

ブルームバーグの研究者は、財務データと一般的な税データを組み合わせて、一般的な LLM ベンチマークで競争力のあるパフォーマンスを維持しながら、金融ベンチマークで最先端の結果を達成するモデルを事前トレーニングすることを選択しました。したがって、研究者らは 51% の財務データと 49% の公的データから構成されるデータを選択しました。
ここに画像の説明を挿入

ブルームバーグの研究者らは論文の中で、モデルのアーキテクチャをより詳細に説明しています。彼らはまた、指導のためにチンチラのスケーリングの法則をどのように始めたのか、どこでトレードオフをしなければならなかったのかについても話し合います。

これら 2 つのグラフは、BloombergGPT を含む一部の LLM によって研究者と議論されたスケーリング則を比較しています。
ここに画像の説明を挿入

左側の対角線は、さまざまな計算予算に対する最適なモデル サイズを数十億のパラメーターで示しています。

右側の線は、最適なトレーニング データセット サイズの計算をトークン数の単位で追跡します。

各グラフ上のピンクの点線は、ブルームバーグ チームが新しいモデルのトレーニングに使用した計算量を表しています。
ここに画像の説明を挿入

ピンクの影付きの領域は、Chinchilla の論文で特定された計算上最適なスケーリング損失に対応します。
ここに画像の説明を挿入

モデルのサイズに関しては、130 万 GPU 時間、つまり約 2 億 3,000 万ペタフロップスの計算予算を考慮すると、BloombergGPT が Chinchilla アプローチにほぼ準拠していることがわかります。モデルはピンクの影付き領域よりわずかに上にあるだけで、パラメーターの数が最適に近いことを示しています。
ここに画像の説明を挿入

ただし、BloombergGPT の事前トレーニングに使用される実際のトークン数は 5,690 億で、利用可能なコンピューティング予算に対して推奨される Chinchilla の値よりも低くなります。トレーニング データセットが最適とは言えないのは、金融ドメインで利用できるデータが限られているためです。
ここに画像の説明を挿入

独自のモデルを事前トレーニングするときにトレードオフを強いられる可能性がある実際的な制約を示します。

最初の 1 週間の完了おめでとうございます。これまで多くのことを説明してきました。それでは、これまでに確認した内容を少し確認してみましょう。

  1. Mike は、執筆、会話の要約、翻訳など、LLM の一般的な使用方法について説明します。
    ここに画像の説明を挿入

  2. 次に、これらのモデルを強化する Transforms アーキテクチャについて詳しく説明します。

  3. また、推論時にモデルの出力に影響を与えるために使用できるパラメーターの一部についても説明します。

  4. 彼は、アプリケーション開発の取り組みを計画し、ガイドするために使用できる生成 AI プロジェクトのライフサイクルを要約しています。
    ここに画像の説明を挿入

  5. 次に、事前トレーニングと呼ばれる初期トレーニング フェーズで、大量のテキスト データに対してモデルがどのようにトレーニングされるかを確認しました。ここでモデルは言語の理解を深めます。

  6. これらのモデルをトレーニングする際の計算上の課題について調査しましたが、これはかなりの課題です。

  7. 実際には、GPU メモリの制限により、モデルをトレーニングするときにほとんどの場合、何らかの形式の量子化を使用します。

  8. 今週は、LLM のスケーリング則と、LLM を計算的に最適なモデルの設計に使用する方法についての議論で締めくくりました。

さらに詳しく読みたい場合は、今週の読書演習を必ずチェックしてください。

参考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/BMxlN/pre-training-for-domain-adaptation

おすすめ

転載: blog.csdn.net/zgpeace/article/details/132464754