大規模モデル微調整技術:DeltaTuning 【既存PEFTの統一フレームワークを提案、最適化の観点からPEFTの有効性を説明、大規模実験を実施】 【パラメータを効率的に微調整するための統一フレームワーク】

デルタチューニング

大規模な事前トレーニング済み言語モデルのパラメーター効率の高い微調整 | ネイチャーマシンインテリジェンス

以下「論文」とは論文を意味します

一文要約:既存PEFTの統一フレームワークの提案、PEFTの有効性を最適化の観点から説明、超大規模実験の実施、PEFTの有効性を最適化の観点から解説

追加の微調整には主に 2 つのタイプがあります: アダプター、プロンプト

プロンプト : この記事は主にプロンプ​​トのパラメータ微調整の効率的な作業に焦点を当てており、モデルとプロンプトの同時最適化については説明しません。

基本的なジョブはプレフィックス チューニングです。簡単に言うと、これは元のモデルによって入力された離散プロンプト トークンであり、transformer ブロックを通過して自己注意、add&layer_norm、およびフィードフォワード操作を実行して、中間の隠れ状態ベクトルを取得します。連続プレフィックスのセット hidden 状態は、トランスフォーマーの各層を介して入力されたプレフィックスのこの部分によって取得された状態ベクトルを置き換え、最適化中にパラメーターのこの部分のみを最適化します。元のモデル パラメーターは固定されています。同時にÿ

おすすめ

転載: blog.csdn.net/u013250861/article/details/131258195