LoRA: 大規模な言語モデルを使用したパーソナライゼーションのベスト プラクティス

プロデューサー: Towee テクニカル チーム

今年は大規模言語モデル (LLM) が大きな注目を集めました。過去には、事前トレーニングと微調整が、モデルを特定のデータに適応させるための最良のパラダイムになりました。ただし、大規模なモデルでは、この種の完全な微調整 (すべてのモデル パラメーターの再トレーニング) は、ますます実現可能性が低くなります。たとえば、GPT-3 175B では、独立した微調整されたモデル インスタンス (それぞれに 175B パラメーターを持つ) をデプロイするのは法外なコストがかかります。2021年にMicrosoftが提唱したLoRA(Low Rank Adaptation)と呼ばれる手法は、大規模モデルの時代にますます注目され、非常に良い結果をもたらしました。この方法では、事前トレーニング済みのモデルの重みを固定し、トレーニング可能なランク分解行列を Transformer アーキテクチャの各レイヤーに挿入します。これにより、ダウンストリーム タスクに必要なトレーニング可能なパラメーターの数が大幅に削減されます。Adam アルゴリズムを使用して微調整された GPT-3 175B モデルと比較すると、LoRA はトレーニング可能なパラメーターの数を 10,000 分の 1 に減らし、GPU メモリ要件を 3 分の 1 に減らすことができます。さらに、LoRA は、RoBERTa、DeBERTa、GPT-2、および GPT-3 モデルのモデル品質に関して微調整と同等またはそれ以上のパフォーマンスを発揮しますが、トレーニング可能なパラメーターが少なく、トレーニング スループットが高く、アダプターほど優れていません。 (アダプター) 推論のレイテンシーを増やすことなく。

|LoRAの再パラメータ化:トレインAとBのみ。代替 代替

|LoRAあり/なし事前学習済みRoBERTaの性能

実験結果は、アルゴリズムの有効性をよく示しています。著者は、RoBERTa モデルを使用して、さまざまなダウンストリーム タスクの微調整を行いました。FT はトレーニングにすべてのパラメーターを使用することであり、BitFit はバイアス ベクトルのみをトレーニングして他のすべての重みを固定します。完全な微調整に加えて、他のいくつかの適応方法によってトレーニングされたパラメーターの数は比較的少ないことがわかります。また、LoRA はより少ないパラメーターをトレーニングして、より良い結果を得ることができます。

LoRA は、NLP だけでなく、非常に効果的な方法であることを証明できます。これは、トランスフォーマーに基づいて開発されるアルゴリズムがますます増えており、この方法はトランスフォーマーに非常に簡単に適応できるためです。現在、非常に人気のある安定拡散も LoRA によってキャプチャされているため、計算能力が限られているほとんどのユーザーは、自分のデータ用に LoRA モデルをすばやく微調整できます。大型モデルがますます注目され、さまざまなタスクのベースラインになるにつれて、この方法は大型モデルの時代に最も日常的な操作になると考えられています。

関連情報:

この記事はmdnice multi-platformによって公開されています

おすすめ

転載: blog.csdn.net/weixin_44839084/article/details/130434258