LoRA の後継である ReLoRA は、複数の低ランク更新行列を重ね合わせることで、より効率的な大規模モデルのトレーニングを実現します。

論文リンク: https://arxiv.org/abs/2307.05695
コードリポジトリ: https://github.com/guitaricet/peft_pretraining

しばらくの間、大規模モデル (LLM) コミュニティの研究者は、LLM のトレーニング、微調整、推論に必要な膨大な計算能力を削減する方法に焦点を当て始めました。これは、LLM の開発と実装を促進し続けるために非常に重要です。より垂直な分野における LLM。現在、モデル構造を革新し、大量の計算を伴う Transformer アーキテクチャを直接置き換え、RNN パラダイムに基づく新しいアーキテクチャを使用する RWKV など、この方向に先駆的な作品が数多くありますまた、元の LLM にパラメーターの少ないアダプター モジュールを追加して微調整するなど、モデルの微調整段階から開始する方法もあります。また、Microsoft が提案する Low-Rank Adaptation (LoRA) 手法もあり、LoRA はタスク適応処理におけるモデルの重みの更新量が低ランク行列を用いて推定できることを前提としているため、間接的にタスクの最適化を行うことができます。新しく追加された元の事前トレーニングされた重みを変更せずに維持しながら、軽量の適応モジュール。現在、LoRA は大規模モデルのエンジニアにとって必要な微調整スキルとなっていますが、この記事の著者は LoRA が現時点で達成できる微調整効果にまだ満足しておらず、さらに重ね合わせ可能な低ランクの微調整を提案しています。 ReLoRA というメソッド

この記事はマサチューセッツ大学ローウェルの研究チームによるもので、著者のチームが最大 3 億 5000 万のパラメータを持つ Transformer に ReLoRA を適用したところ、従来のニューラル ネットワーク トレーニングと同等のパフォーマンスを示しましたさらに、この記事の著者は、ReLoRA の微調整効率はモデルのパラメーター サイズが増加するにつれて向上し続け、これにより非常に大規模なトレーニング (通常は 1B を超えるパラメーター) の新しい手段になる可能性があることも観察しました。 ) 将来の LLM。

01. はじめに

現在、学界と産業界の両方が独自のさまざまな基本モデルを発表していますが、初歩的な推論機能を備えた LLM を完全に事前トレーニングするには、依然として非常に大きな計算能力が必要であることは否定できません。たとえば、よく知られた LLaMA-6B モデル [1] では、トレーニングを完了するには数百もの GPU が必要であり、この規模のコンピューティング能力は、ほとんどの学術研究グループにとって法外なものです。これに関連して、パラメータ効率的微調整 (PEFT) は、LLM における非常に有望な研究方向となっています具体的には、PEFT メソッドは、RTX 3090 や 4090 などのコンシューマー グレードの GPU で 10 億レベルの言語または拡散モデルを微調整できますしたがって、この記事では、PEFT における低ランクのトレーニング技術、特に LoRA メソッドに焦点を当てます。著者は、過去 10 年間の深層学習の開発段階における中心原則の 1 つは、継続的に「より多くの層を積み重ねること」であると考えています。たとえば、ResNet の導入により、畳み込みニューラル ネットワークの深さを 100 層に増やすことができます。 . 上記のとおり、非常に良い結果が得られました。したがって、この記事では、低ランク適応のトレーニング効率も積み重ねて改善できるかどうかを検討します。

この論文は,高ランクのネットワークを訓練し微調整するための低ランク更新に基づく ReLoRA 手法を提案する.そのパフォーマンスは同じ数の訓練可能なパラメータを持つネットワークよりも優れており,完全なネットワークを訓練するのと同様のパフォーマンスを達成することさえできる100M+スケールの比較効果 具体的には、ReLoRA手法には、(1)初期化フルランクトレーニング、(2)LoRAトレーニング、(3)パラメータ再起動、(4)ギザギザ学習率スケジュール、(5)オプティマイザパラメータ部リセットが含まれる著者は、現在非常に人気のある自己回帰言語モデルを実験に選択し、各実験に使用される GPU コンピューティング時間が 8 日を超えないようにしました

02. この論文の手法

ReLoRA は、シーケンスの重ね合わせを通じて少数のパラメーター セットのみをトレーニングすることで、フルランク トレーニングに匹敵するパフォーマンスを達成できます。また、元のネットワークの固定された重みを維持し、新しいトレーニング可能なパラメーターを追加するという LoRA 法の基本原理に従います一見すると、このアプローチは計算効率が低いように見えるかもしれませんが、このアプローチは勾配とオプティマイザー状態のサイズを削減することでメモリ効率を大幅に向上させることができることを明確にする必要があります。たとえば、Adam オプティマイザーの状態は通常、モデルの重みの 2 倍のビデオ メモリを消費しますトレーニング可能なパラメータの数を大幅に減らすことで、ReLoRA は同じビデオ メモリ条件下でより大きなバッチ サイズを使用できるようになり、ハードウェア効率が最大化されます。ReLoRA の全体的な動作の詳細は次の図に示されています。

03. 実験効果

ReLoRA メソッドのパフォーマンスを明確に評価するために、著者はそれをさまざまなサイズ (60M、130M、250M、350M) の Transformer モデルに適用し、C4 データセットでトレーニングおよびテストしました。ReLoRA メソッドの普遍性を実証するために、著者は NLP の分野における基本的な言語モデリング タスクに焦点を当てますモデルのアーキテクチャとトレーニングのハイパーパラメーター設定は、基本的に LLaMA モデルと一致しています。LLaMA とは異なり、著者は実験で元のアテンション メカニズム (ソフトマックス計算に float32 を使用) をフラッシュ アテンション [2] に置き換え、計算に bfloat16 精度を使用しました。この操作により、トレーニングなしでトレーニング スループットが 50 ~ 100 % 向上します。安定性の問題。さらに、ReLoRA 手法を使用してトレーニングされたモデル パラメーターのスケールは、LLaMA のモデル パラメーターよりもはるかに小さく、最大モデル パラメーターはわずか 350M であり、トレーニングは 8 台の RTX4090 を使用して 1 日で完了できます。

以下の図は、この手法と他の手法の性能比較を示しており、ReLoRA が低ランクの LoRA 手法に比べて大幅に優れていることがわかり、提案した修正の有効性が証明されています。さらに、ReLoRA も Full トレーニングと同等のパフォーマンスを達成しており、ネットワーク サイズが大きくなるにつれて、パフォーマンスの差が徐々に縮まっていくことがわかります興味深いことに、ReLoRA が超えることのできない唯一のベースライン モデルは、パラメーターが 6,000 万しかない最小モデルです。この観察は、ReLoRA が大規模ネットワークのトレーニングを改善するのにより効果的であることを示唆しており、これは大規模ネットワークのトレーニングを改善する方法を探索するという著者の当初の目標と一致しています。

04. 概要

この記事は、大規模な Transformer 言語モデルのトレーニング コストの削減に焦点を当てた研究です。著者は、低ランク トレーニング テクノロジーという非常に有望な方向を選択し、複数の重畳された低ランク更新行列は、高ランク ネットワークのトレーニングに使用されます。これを達成するために、著者は、パラメータの再起動、鋸歯状学習率スケジューリング アルゴリズム、オプティマイザ パラメータのリセットを含む一連の操作を慎重に設計しました。これらの操作は共同して改善します ReLoRA アルゴリズム特に非常に大規模な Transformer ネットワークでは、トレーニング効率がフルランク トレーニングに匹敵するパフォーマンスを達成できる場合もあります。著者はReLoRAのアルゴリズム実現可能性と運用効果を数多くの実験で証明してきたが、ReLoRAも大規模モデルエンジニアにとって必須のアルゴリズムスキルとなるのではないだろうか?

参考

[1] H. Touvron、T. Lavril、G. Izacard、X. Martinet、M.-A. ラショー、T. ラクロワ、B. ロジエール、N. ゴヤル、E. ハンブロ、F. アズハル、A. ロドリゲス、A. ジュラン、E. グレイブ、G. ランプル。Llama: オープンで効率的な基礎言語モデル。arXiv プレプリント arXiv:2302.13971、2023。

[2] T. Dao、DY Fu、S. Ermon、A. Rudra、および C. Re。Flashattention: IO を認識した高速かつメモリ効率の高い正確なアテンション。AH Oh、A. Agarwal、D. Belgrave、および K. Cho、編集者、Advances in Neural
Information Processing Systems、2022 年。


  TechBeat 人工知能コミュニティについて

TechBeat (www.techbeat.net) は江門ベンチャーキャピタルと提携しており、世界的な中国の AI エリートが集まる成長コミュニティです。

私たちは、AI 人材向けによりプロフェッショナルなサービスとエクスペリエンスを作成し、彼らの学習と成長を加速し、それに伴っていきたいと考えています。

これが最先端の AI の知識を学ぶための高台、最新の作品を共有するための肥沃な場所、そして AI の進歩に向かうモンスターとアップグレードして戦うための拠点となることを楽しみにしています。

さらに詳しく紹介 >>中国の世界的な AI エリートが集まる学習と成長のコミュニティ TechBeat

おすすめ

転載: blog.csdn.net/hanseywho/article/details/132452721