1. 基本情報
トピック | 論文の著者と単位 | ソース | 年 |
---|---|---|---|
LoRA: 大規模言語モデルの低ランク適応 | マイクロソフト | 学習表現に関する国際会議 | 2021年 |
524 件の引用
論文リンク: https://arxiv.org/pdf/2106.09685.pdf
ペーパーコード: https://github.com/microsoft/LoRA
2. 重要なポイント
研究テーマ | 問題の背景 | コアメソッドフロー | ハイライト | データセット | 結論は | 論文の種類 | キーワード |
---|---|---|---|---|---|---|---|
大きなモデルの微調整 | GPT-3 175B などのより大きなモデルのすべてのパラメーターを微調整することは現実的ではなく、タスクごとに個別の GPT-3 を導入すると非常にコストがかかります。 | 提案された低ランク適応、LoRA。 | 事前トレーニングされたモデルの重みを凍結し、トレーニング可能なランク因数分解行列を Transformer アーキテクチャの各層に注入することで、下流タスクのトレーニング可能なパラメーターの数が大幅に減少します。 | 効果はパラメータの完全な微調整と同等かそれ以上であり、推論の遅延はありません。 | ロラ |
主な目的は、特に 175B GPT-3 などの大型モデルの場合、コストが高すぎるため、下流のタスクに合わせてモデルのすべてのパラメーターを微調整することではありませんが、同時に関連する方法を提案している人もいます。しかし、これらの方法には問題があり、モデルの深さを拡張したり、推論レイテンシが存在する場合にモデルの利用可能なシーケンス長を削減したりする必要があります。最も重要なことは、品質が十分ではないということです。
インスピレーションを得たもの: 学習された過剰パラメータ化モデルは、実際にはより低い固有次元に存在します。つまり、ダウンストリーム タスクのトレーニングにはそれほど多くのパラメーターは必要なく、最も固有のパラメーターを保持するためにランク削減方法が使用されます。
客観的なランドスケープの固有次元の測定、固有次元は言語モデルの微調整の有効性を説明します。arXiv:2012.13255 [cs]、2020 年 12 月。
アドバンテージ:
共有される大規模なモデルは 1 つだけであり、異なるタスクでは異なる A と B のみがトレーニングされます。
トレーニングはより効果的であり、トレーニングパラメータは少なくなります。
推論に関しては、線形マージ、推論遅延なし。
LoRA は、これまでの多くのアプローチと直交しており、プレフィックス調整などの多くのアプローチと組み合わせることができます。
3. モデル(コアコンテンツ)
3.1 形式的な表現
3.2 モデル構造
W0 + ∆W = W0 + *BA, 其中 *B:d*r, A:r*k, r << min(d, k).
W0 はトレーニング中にフリーズします。
Transformer には、セルフ アテンション用の 4 つの行列と、MLP モジュール用の 2 つの行列があります。
ここでの実験では、自己注意に関連する重み行列のみを考慮します。
4. 実験と解析
比較実験
微調整 (FT) : 従来の微調整。FT のバリアントでは、最後の 2 つの層 ( FT Top2 ) のみをトレーニングします。
バイアスのみまたは BitFit : バイアス ベクトルのみをトレーニングします。
**プレフィックス埋め込みチューニング (PreEmbed): **入力タグに特別なタグを挿入します。
プレフィックス層チューニング (PreLayer) : プレフィックス埋め込みチューニングの拡張です。
アダプター チューニング: セルフ アテンション モジュール (および MLP モジュール) とその後の残りの接続の間にアダプター層を挿入します。
アダプター_H :Houlsby et al. (2019) ;
アダプター_L : リンら。(2020)
アダプター_P : Pfeiffer et al. (2021)、
**Adapter_*** D : *AdapterDrop (R¨uckl'e et al., 2020)
すべてのモデルで、関連するパラメータ サイズ スケールΘを制限します。
トレーニングパラメータの量とパフォーマンスの比較実験:
サンプルの増加に伴う GPT-3 の効果については、次のとおりです。
5. コード
https://github.com/microsoft/LoRA
6. まとめ
効果の観点から見ると、事前トレーニング モデルのサイズに関係なく、LoRA はより少ないパラメーターを使用して、フルパラメーター モデルのより良い効果を実現します。
7. 知識の照合(知識のポイント、読む文献、原文の抽出)
主に 2 つの方向 (アダプター、ソフト プロンプト) で、より少ないパラメーターを使用してダウンストリーム タスクに適応します。
アダプター層の追加、入力層アクティブ化のいくつかの形式の最適化
微調整の主な欠点は、新しいモデルに元のモデルと同じ数のパラメータが含まれていることです。
微調整の主な欠点は、新しいモデルに元のモデルと同じ数のパラメータが含まれていることです。
8. 参考文献
ハッピープリンスが作った