[論文読書メモ 77] LoRA: 大規模言語モデルの低ランク適応

1. 基本情報

トピック 論文の著者と単位 ソース
LoRA: 大規模言語モデルの低ランク適応 マイクロソフト 学習表現に関する国際会議 2021年

524 件の引用

論文リンク: https://arxiv.org/pdf/2106.09685.pdf

ペーパーコード: https://github.com/microsoft/LoRA

2. 重要なポイント

研究テーマ 問題の背景 コアメソッドフロー ハイライト データセット 結論は 論文の種類 キーワード
大きなモデルの微調整 GPT-3 175B などのより大きなモデルのすべてのパラメーターを微調整することは現実的ではなく、タスクごとに個別の GPT-3 を導入すると非常にコストがかかります。 提案された低ランク適応、LoRA。 事前トレーニングされたモデルの重みを凍結し、トレーニング可能なランク因数分解行列を Transformer アーキテクチャの各層に注入することで、下流タスクのトレーニング可能なパラメーターの数が大幅に減少します。 効果はパラメータの完全な微調整と同等かそれ以上であり、推論の遅延はありません。 ロラ

主な目的は、特に 175B GPT-3 などの大型モデルの場合、コストが高すぎるため、下流のタスクに合わせてモデルのすべてのパラメーターを微調整することではありませんが、同時に関連する方法を提案している人もいます。しかし、これらの方法には問題があり、モデルの深さを拡張したり、推論レイテンシが存在する場合にモデルの利用可能なシーケンス長を削減したりする必要があります。最も重要なことは、品質が十分ではないということです。

インスピレーションを得たもの: 学習された過剰パラメータ化モデルは、実際にはより低い固有次元に存在します。つまり、ダウンストリーム タスクのトレーニングにはそれほど多くのパラメーターは必要なく、最も固有のパラメーターを保持するためにランク削減方法が使用されます。

客観的なランドスケープの固有次元の測定、固有次元は言語モデルの微調整の有効性を説明します。arXiv:2012.13255 [cs]、2020 年 12 月。

アドバンテージ:

共有される大規模なモデルは 1 つだけであり、異なるタスクでは異なる A と B のみがトレーニングされます。

トレーニングはより効果的であり、トレーニングパラメータは少なくなります。

推論に関しては、線形マージ、推論遅延なし。

LoRA は、これまでの多くのアプローチと直交しており、プレフィックス調整などの多くのアプローチと組み合わせることができます。

3. モデル(コアコンテンツ)

3.1 形式的な表現

pCmZfhQ.png

3.2 モデル構造

pCmASwF.png

W0 + ∆W = W0 + *BA, 其中 *B:d*r, A:r*k, r << min(d, k).

W0 はトレーニング中にフリーズします。

pCmmbYF.png

Transformer には、セルフ アテンション用の 4 つの行列と、MLP モジュール用の 2 つの行列があります。

ここでの実験では、自己注意に関連する重み行列のみを考慮します。

4. 実験と解析

比較実験

微調整 (FT) : 従来の微調整。FT のバリアントでは、最後の 2 つの層 ( FT Top2 ) のみをトレーニングします。

バイアスのみまたは BitFit : バイアス ベクトルのみをトレーニングします。

**プレフィックス埋め込みチューニング (PreEmbed): **入力タグに特別なタグを挿入します。

プレフィックス層チューニング (PreLayer) : プレフィックス埋め込みチューニングの拡張です。

アダプター チューニング: セルフ アテンション モジュール (および MLP モジュール) とその後の残りの接続の間にアダプター層を挿入します。

アダプター_H :Houlsby et al. (2019) ;

アダプター_L : リンら。(2020)

アダプター_P : Pfeiffer et al. (2021)、

**Adapter_*** D : *AdapterDrop (R¨uckl'e et al., 2020)

すべてのモデルで、関連するパラメータ サイズ スケールΘを制限します。

pCmNA5d.png

結果:
pCmUnY9.png

pCmUgYj.png

pCmByJe.png

トレーニングパラメータの量とパフォーマンスの比較実験:

pCmanHS.png

サンプルの増加に伴う GPT-3 の効果については、次のとおりです。

pCma6u6.png

5. コード

https://github.com/microsoft/LoRA

6. まとめ

効果の観点から見ると、事前トレーニング モデルのサイズに関係なく、LoRA はより少ないパラメーターを使用して、フルパラメーター モデルのより良い効果を実現します。

7. 知識の照合(知識のポイント、読む文献、原文の抽出)

主に 2 つの方向 (アダプター、ソフト プロンプト) で、より少ないパラメーターを使用してダウンストリーム タスクに適応します。

アダプター層の追加、入力層アクティブ化のいくつかの形式の最適化

微調整の主な欠点は、新しいモデルに元のモデルと同じ数のパラメータが含まれていることです。

微調整の主な欠点は、新しいモデルに元のモデルと同じ数のパラメータが含まれていることです。

8. 参考文献

ハッピープリンスが作った

おすすめ

転載: blog.csdn.net/ld326/article/details/131193936