青い文字をクリックしてフォローしてください
フォローしてスターを付ける
決して迷わない
コンピュータビジョン研究所
公的ID|コンピュータビジョン研究所
学習会|参加方法はホームページのQRコードを読み取ってください
論文アドレス: https://arxiv.org/pdf/2306.03078.pdf
プロジェクトアドレス: https://github.com/Vahe1994/SpQR
コンピュータビジョン研究所コラム
コンピュータビジョン研究所のコラム
個人用端末装置の大型モデルが現実のものとなった。
『ザ・ハート・オブ・ザ・マシン』より転載
特定のタスクに対する事前トレーニングされた大規模言語モデル (LLM) のパフォーマンスは向上し続けており、その後、プロンプト指示が適切であれば、より多くのタスクに一般化することができます。多くの人は、この現象がトレーニングにより多くのデータとただし、最近の傾向では、研究者はより小規模なモデルに重点を置いていますが、これらのモデルはより多くのデータでトレーニングされるため、推論時に使用しやすくなります。
たとえば、7B パラメータの LLaMA は 1T トークンでトレーニングされ、平均パフォーマンスは GPT-3 よりわずかに劣りますが、パラメータ数は GPT-3 の 1/25 です。それだけでなく、現在の圧縮技術により、これらのモデルをさらに圧縮できるため、パフォーマンスを維持しながらメモリ要件が大幅に削減されます。このような改善により、優れたパフォーマンスのモデルをラップトップなどのエンドユーザー デバイスに展開できるようになります。
ただし、これには別の課題が生じます。つまり、生成の品質を損なうことなく、これらのモデルをこれらのデバイスに適合するのに十分小さなサイズに圧縮する方法です。研究によると、圧縮モデルによって生成された答えは許容できるものの、既存の 3 ~ 4 ビットの量子化技術では依然として精度が低下することがわかっています。LLM の生成は順次行われ、以前に生成されたトークンに依存するため、小さな相対エラーが蓄積し続け、深刻な出力の破損につながります。信頼性の高い品質を確保するには、16 ビット モデルと比較して予測パフォーマンスを低下させない、低ビット幅の量子化方法を考案することが重要です。
ただし、各パラメーターを 3 ~ 4 ビットに量子化すると、特にエッジ展開に適した 1 ~ 10B パラメーター範囲の小型モデルの場合、中程度から高精度の損失が発生することがよくあります。
精度の問題を解決するために、ワシントン大学、チューリッヒ連邦工科大学などの研究者は、LLMクロスモデルスケールを実現する新しい圧縮形式と量子化技術SpQR(Sparse-Quantized Representation、疎量子化表現)を提案しました。を初めてほぼ可逆圧縮し、以前の方法と同様のレベルの圧縮を達成します。
SpQR は、特に大きな量子化誤差の原因となる外れ値の重みを特定して分離することで機能し、研究者らはそれらをより高精度で格納しながら、他のすべての重みを 3 ~ 4 ビットに LLaMA および Falcon LLM に圧縮します。相対精度の損失はパープレキシティ 1% 未満です。が達成された。これにより、33B パラメータの LLM を単一の 24GB コンシューマ GPU でパフォーマンスを低下させることなく実行できるようになり、さらに 15% 高速化されます。
SpQR アルゴリズムは効率的であり、重みを他の形式にエンコードし、実行時に効率的にデコードします。具体的には、この研究は SpQR に効率的な GPU 推論アルゴリズムを提供し、16 ビットのベースライン モデルよりも高速な推論を可能にし、同時に 4 倍を超えるメモリ圧縮ゲインを達成します。
方法
この研究では、スパース量子化を混合した新しいフォーマットであるスパース量子化表現 (SpQR) を提案します。これは、ほぼ可逆性を維持しながら、正確に事前トレーニングされた LLM をパラメータあたり 3 ~ 4 ビットに圧縮できます。
具体的には、研究ではプロセス全体を 2 つのステップに分割しました。最初のステップは外れ値の検出です。この研究では、まず外れ値の重みを分離し、その量子化が高い誤差につながることを実証しています。外れ値の重みは高精度で保持されますが、他の重みは低精度で保存されます (例: 3 ビット形式)。次に、この研究では、非常に小さなグループ サイズでグループ化された量子化の変形を実装し、量子化スケール自体を 3 ビット表現に量子化できることを示しました。
SpQR は、精度を損なうことなく LLM のメモリ フットプリントを大幅に削減し、16 ビット推論と比較して 20% ~ 30% 高速に LLM を生成します。
さらに、この研究では、重み行列内の敏感な重みの位置がランダムではなく、特定の構造を持っていることがわかりました。定量化中にその構造を強調するために、各重量の感度を計算し、LLaMA-65B モデルのこれらの重量感度を視覚化しました。以下の図 2 は、LLaMA-65B の最後のセルフ アテンション層の出力投影を示しています。
この研究では、量子化プロセスに 2 つの変更が加えられました。1 つは敏感な重みの小グループを捕捉するため、もう 1 つは個々の外れ値を捕捉するためです。以下の図 3 は、SpQR の全体的なアーキテクチャを示しています。
次の表は、SpQR 量子化アルゴリズムを示しています。左側のコード スニペットはプロセス全体を示し、右側のコード スニペットには、二次量子化と外れ値の検出のためのサブルーチンが含まれています。
実験
この研究では、SpQR を他の 2 つの量子化スキーム、GPTQ および RTN (最近似への丸め) と比較し、2 つの指標を使用して量子化モデルのパフォーマンスを評価しました。1 つ目はパープレキシティの測定で、使用されるデータ セットには WikiText2、Penn Treebank、C4 が含まれ、2 つ目は 5 つのタスク (WinoGrande、PiQA、HellaSwag、ARC-easy、ARC-challenge) におけるゼロサンプル精度です。
主な結果。図 1 の結果は、同様のモデル サイズで、特に小規模なモデルで、SpQR が GPTQ (および対応する RTN) よりも大幅にパフォーマンスが優れていることを示しています。この改善は、SpQR が損失の劣化を軽減しながら、より多くの圧縮を達成するという事実によるものです。
表 1、表 2 結果は、4 ビット量子化の場合、SpQR は GPTQ と比較して 16 ビット ベースラインに対する誤差を半分にすることを示しています。
表 3 は、さまざまなデータセットに対する LLaMA-65B モデルのパープレキシティの結果を示しています。
最後に、この研究では SpQR の推論速度を評価します。この研究では、特別に設計された疎行列乗算アルゴリズムと PyTorch (cuSPARSE) に実装されたアルゴリズムを比較しました。その結果を表 4 に示します。PyTorch の標準的な疎行列乗算は 16 ビット推論より速くありませんが、この論文で特別に設計された疎行列乗算アルゴリズムは約 20 ~ 30% 高速化できることがわかります。
© ジ・エンド
転載の際はこちらの公式アカウントにご連絡の上、許可を得てください。
コンピュータビジョン研究所研究会は皆様のご参加をお待ちしております!
だいたい
コンピュータビジョン研究所
コンピュータビジョン研究所は主にディープラーニングの分野に携わっており、主にターゲット検出、ターゲット追跡、画像セグメンテーションなどの研究方向に取り組んでいます。研究機関では常に最新の論文のアルゴリズムフレームワークを共有し、「研究」と「実践」に重点を置いたプラットフォームとなっています。後半では、該当分野の実践プロセスを共有し、誰もが理論から脱却する現場をリアルに体験し、プログラミングと頭脳思考を愛する習慣を養います。
すぐに協力・相談するには「原文を読む」をクリックしてください