大規模モデル圧縮の最初のレビューはこちらです~~

出典: Dialogue のアルゴリズム ハウス

NLP グループに入る —> NLP コミュニケーション グループに参加する

最近、LLM は、膨大な数のパラメータと計算タスクのおかげで、その驚くべき推論効果で世界を驚かせました。GPT-175B モデルを例に挙げると、1,750 億個のパラメータがあり、少なくとも 320GB (1024 の倍数として計算) の半精度 (FP16) フォーマットのストレージ容量が必要です。さらに、操作を効果的に管理するには、推論用のモデルをデプロイするには、それぞれ 80 GB のメモリを搭載した少なくとも 5 つの A100 GPU が必要です。膨大なストレージとコンピューティングのコストにより、効果的なモデル圧縮は解決が必要な困難な問題となっています。

中国科学院と人民大学の研究者は、LLM ベースのモデル圧縮の研究の進捗状況について詳細な議論を行い、この分野における最初のレビュー「大規模言語モデルのモデル圧縮に関する調査」を発表しました。

728436cffeef56303e66a1d42d1ffefe.jpeg
论文链接:https://arxiv.org/pdf/2308.07633.pdf

モデルの圧縮には、リソースを大量に消費する大規模なモデルを、制約のあるモバイル デバイスへの保存に適したコンパクトなバージョンに変換することが含まれます。さらに、実行の高速化と遅延の最小化、またはこれらの目標の間のバランスをとるためにモデルを最適化できます。

このレビューは主に、LLM のモデル圧縮技術の手法、指標、ベンチマークに焦点を当て、関連する研究内容を次のような新しい分類に整理します。

  • 剪定

  • 知識の蒸留

  • 量子化

  • 低秩分解(Low-Rank Factorization)

3e81da1df77539779e05ea54a1ff79fd.jpeg

図 1: 大規模言語モデルのモデル圧縮方法の分類。

1.方法

剪定

プルーニングとは、モデルの効率を高めるために、パラメーターなどの不必要または冗長なコンポーネントをモデルから削除することを指します。モデル内の寄与が限られている冗長なパラメーターを取り除くことで、パフォーマンスの低下を最小限に抑えながら、ストレージ要件を削減し、メモリとコンピューティングの効率を向上させることができます。この論文では、枝刈りを非構造化枝刈りと構造化枝刈りという 2 つの主なタイプに分類しています。

非構造化プルーニング: ネットワーク全体の構造を考慮せずに個々のパラメータを削除することを指します。このアプローチは、しきい値を下回るパラメーターをゼロにすることで、個々の重みまたはニューロンに作用します。これにより、特定のパラメータが削除され、モデルが不規則な疎構造になります。そして、この不規則性には、枝刈りされたモデルを保存して計算するための特殊な圧縮技術が必要です。さらに、非構造化枝刈りでは、精度を回復するために LLM の大規模な再トレーニングが必要になることが多く、これは LLM にとって特にコストがかかります。SparseGPT [Frantar and Alistarh、2023] は、再トレーニングを必要としないワンショットの枝刈り戦略を導入しています。このアプローチでは、枝刈りを広範なスパース回帰問題として扱い、近似スパース回帰ソルバーを使用してそれを解決し、大幅な非構造化スパース性を実現します。LoRAPrune [Zhang et al., 2023a] は、パラメータ効率調整 (PEFT) 手法と枝刈りを組み合わせて、下流タスクのパフォーマンスを向上させます。Low-Rank Adaption (LoRA) の値と勾配を使用した独自のパラメーター重要度基準を導入します。Wanda [Sun et al., 2023] は、新しい枝刈り指標を提案しました。これは、各重みのサイズと、小さなキャリブレーション データセットを使用して近似される、対応する入力アクティベーションのノルムの積として評価されます。このメトリックは線形層出力内のローカル比較に使用され、優先度の低い重みを LLM から削除できるようになります。

構造プルーニング: ネットワーク全体の構造を維持しながら、事前定義されたルールに基づいて接続または階層を削除します。この方法は、重みのセット全体を一度にターゲットにするため、LLM 構造全体をそのままにしながら、モデルの複雑さとメモリ使用量を削減できるという利点があります。LLM-Pruner [Ma et al., 2023] は、LLM のマルチタスク解決機能と言語生成機能を維持しながら、LLM を圧縮する多用途のアプローチを採用しています。モデル内の相互依存構造を特定するための依存関係検出アルゴリズムが導入されています。また、一次情報と近似ヘシアン情報を考慮した効率的な重要度推定方法も実装されています。

知識の蒸留 (KD)

KD は、複雑なモデル (教師モデルと呼ばれる) から単純化されたモデル (学生モデルと呼ばれる) に知識を転送することによって実装されます。このセクションでは、LLM を教師として使用する抽出方法の概要を説明し、LLM の創発能力 (EA) を、標準 KD と EA ベースの KD を含む小さな言語モデル (SLM) に抽出することを重視するかどうかに応じて、これらの方法を分類します。

7ff1c7910c2cbfc7e18c172bd86df980.jpeg

図 2: 言語モデルの知識の蒸留の簡単な分類。

標準 KD は、出力分布や特徴情報など、LLM が持つ共通知識を学生モデルが学習できるように設計されています。この方法は従来の KD に似ていますが、教師モデルが LLM である点が異なります。

MINILLM [Gu等,2023] 深入研究了从白盒生成LLMs进行蒸馏的方法,并选择最小化反向KLD,防止了学生过高估计教师分布中的低概率区域,从而提高了生成样本的质量。

GKD [Agarwal等,2023] 探索了从自回归模型进行蒸馏的方法,其中白盒生成LLMs作为其中一个子集。它通过在训练期间从学生模型中采样输出序列来处理分布不匹配问题,并通过优化替代的散度,如反向KL散度,来解决模型不足的问题。

対照的に、EA ベースの KD は、LLM の一般的な知識を学生モデルに移すだけでなく、LLM の独自の創発的機能の抽出もカバーします。具体的には、EA ベースの KD は、文脈学習 (ICL)、思考連鎖 (CoT)、および命令追従 (IF) に分割されます。

ICL は、タスクの説明と、場合によってはいくつかのデモンストレーション例を含む構造化された自然言語プロンプトを使用します。これらのタスク例を使用すると、LLM は明示的な勾配更新を必要とせずに新しいタスクを習得して実行できます。Huang らの研究では、LLM の状況に応じた少数ショット学習および言語モデリング機能を SLM に移すための ICL 蒸留が導入されています。これは、文脈に応じた学習目標と従来の言語モデリング目標を組み合わせ、メタ ICT とマルチタスク ICT という 2 つの少数ショット学習パラダイムの下で ICL の蒸留を調査します。

ICL と比較すると、CoT では、単純な入出力ペアを使用するのではなく、最終出力につながる中間推論ステップがプロンプトに組み込まれています。MT-COT [Li et al., 2022] は、LLM によって作成された説明を活用して、小規模な推論者のトレーニングを強化することを目的としています。マルチタスク学習フレームワークを活用して、小規模なモデルに強力な推論機能と説明を生成する機能を与えます。Fine-tune-CoT [Ho et al., 2023] は、ランダム サンプリングを通じて LLM から複数の推論ソリューションを生成します。このトレーニング データの増加は、学生モデルの学習プロセスに役立ちます。Fu らは、言語モデルの多次元機能間のトレードオフを発見し、微調整された命令調整モデルを提案しました。大規模な教師モデルから CoT 推論パスを抽出して、分布外の一般化を改善します。Xieらは、より小さなモデルをトレーニングするためのマルチタスクフレームワーク内の追加のガイダンスとしてLLM原則を使用しました。SOCRATIC CoT [Shridhar et al., 2023] は、問題分解器と副問題ソルバーという 2 つの蒸留モデルをトレーニングします。デコンポーザーは元の問題を一連のサブ問題に分解し、サブ問題ソルバーはこれらのサブ問題の解決に取り組みます。DISCO [Chen et al., 2023] は、LLM に基づいた完全自動の反事実知識蒸留方法を導入しています。人工的なプロンプトを通じてフレーズの摂動を生成し、タスク固有の教師モデルを通じてこれらの摂動データをフィルター処理して、高品質の反事実データを抽出します。SCOTT [Wang et al., 2023a] は、対照的なデコードを使用して、各原則を答えに結び付けます。これは、教師から関連する原則を引き出すことを奨励します。さらに、学生は、反事実に基づいて推論し、異なる答えを導く原則に基づいて予測するように指導されます。

IF はタスクの説明のみに依存し、いくつかの例には依存しません。言語モデルは、命令の形で表現された一連のタスクを使用して微調整することにより、これまでに見たことのない命令で記述されたタスクを正確に実行する能力を実証します。Lion et al., 2023] LLM の適応性を利用して、学生モデルのパフォーマンスを向上させています。これは、LLM に「難しい」命令を特定して生成するよう促し、これらの命令を利用して学生モデルの機能を強化します。

d8f6263b2cd6601a059afd95d4d3a0f8.jpeg

図 3: EA ベースの KD の概要。a) 文脈学習の抽出、(b) 思考連鎖の抽出、(c) 抽出後の指導。

量子化

量子化テクノロジーは、従来の表現方法の浮動小数点数を整数またはその他の離散形式に変換し、ディープ ラーニング モデルのストレージと計算の負担を軽減します。慎重な量子化手法により、精度をわずかに損なうことなく大規模なモデル圧縮を実現できます。量子化圧縮モデルを適用する段階に応じて、次の 3 つの方法に分けることができます。

量子化対応トレーニング(QAT): QAT では、定量化ターゲットがモデルのトレーニング プロセスにシームレスに統合されます。このアプローチにより、LLM はトレーニング中に低精度の表現に適応できるようになり、量子化によって生じる精度の損失を処理する能力が強化されます。この適応は、量子化プロセス後もより高いパフォーマンスを維持することを目的としています。LLM-QAT [Liu et al., 2023] は、事前トレーニングされたモデルによって生成された結果を利用して、データフリーの蒸留を実現します。さらに、LLM-QAT は重みとアクティベーションだけでなく、キーバリュー (KV) キャッシュも定量化します。この戦略は、スループットを向上させ、より長いシーケンスの依存関係をサポートするように設計されています。LLM-QAT は、量子化された重みと KV キャッシュを備えた大規模な LLaMA モデルを 4 ビット モデルのみに抽出できます。この画期的な結果は、正確な 4 ビット量子化 LLM を製造できる可能性を示しています。

量子化対応微調整 (QAF) QAF には、微調整中に LLM を量子化することが含まれます。主な目標は、より低いビット幅に量子化した後も、微調整された LLM がパフォーマンスを維持できるようにすることです。LLM は、量子化の認識を微調整に統合することにより、モデルの圧縮とパフォーマンスの維持の間でバランスをとることを目指しています。PEQA [Kim et al., 2023] と QLORA [Dettmers et al., 2023a] は両方とも、量子化知覚パラメータ効率的微調整 (PEFT) テクノロジーのカテゴリに属します。これらの技術は、モデルの圧縮を促進し、推論を高速化することに重点を置いています。PEQA は 2 段階のプロセスを使用します。第 1 段階では、各全結合層のパラメータ行列が低ビット整数行列とスカラー ベクトルに量子化されます。第 2 段階では、特定の下流タスクごとにスカラー ベクトルが微調整されます。QLORA は、新しいデータ型、二重量子化、ページング オプティマイザーなどの革新的な概念を導入しています。これらのアイデアは、パフォーマンスに影響を与えることなくメモリを節約するように設計されています。QLORA を使用すると、Vicuna ベンチマークで最先端の結果を達成しながら、単一の GPU で大規模なモデルを微調整できます。

トレーニング後の量子化(ポストトレーニング量子化、PTQ) PTQ には、トレーニング フェーズが完了した後の LLM のパラメータの量子化が含まれます。PTQ の主な目標は、LLM アーキテクチャの変更や再トレーニングを必要とせずに、LLM のストレージと計算の複雑さを軽減することです。PTQ の主な利点は、そのシンプルさと効率です。ただし、PTQ では量子化プロセスである程度の精度の低下が発生する可能性があることに注意してください。PTQ では、効率を向上させ、計算要件を削減するために、LLM の重みのみを量子化することに焦点を当てた方法もあります。LUT-GEMM [Park et al., 2022] は、重みのみを量子化し、BCQ 形式を使用して LLM の行列乗算を最適化することで計算効率を向上させ、レイテンシーの削減とパフォーマンスを強化します。LLM。int8() [Dettmers et al., 2022] は、LLM 変換器の行列乗算に 8 ビット量子化を使用し、パフォーマンスの精度を維持しながら推論中の GPU メモリ使用量を効果的に削減します。この方法では、ベクトル量子化と混合精度分解を使用して外れ値を処理し、効率的な推論を実現します。ZeroQuant [Yao et al., 2022] は、ハードウェアに適した量子化スキーム、層ごとの知識の蒸留、および最適化された量子化サポートを統合して、Transformer ベースのモデルの重みとアクティベーション精度を最小 INT8 まで低減し、ほとんど影響を与えません。精度が高い GPTQ [Frantar et al., 2022] は、近似二次情報に基づく新しい階層量子化技術を提案しています。これは、非圧縮バージョンと比較して精度をほとんど損なうことなく、各重みのビット幅を 3 ビットまたは 4 ビットに削減します。Dettmers と Zettlemoyer は、スケーリング則を分析的に推論することにより、LLM のゼロショット パフォーマンスにおけるモデル サイズとビット精度の間のトレードオフを詳細に調査しています。彼らは、さまざまな LLM ファミリにわたって広範な実験を実施し、モデルの合計ビットとゼロサンプル精度の間の適切なバランスを達成するには、ほぼ普遍的に 4 ビット精度が最良の選択であることを発見しました。AWQ [Lin et al., 2023] は、LLM のパフォーマンスにとって重みは同じように重要ではなく、重要な重みの 1% のみを保護するだけで量子化誤差を大幅に削減できることを発見しました。これに基づいて、AWQ は、重要な機能の処理において重要な役割を果たす、より大きなアクティベーション振幅に対応するウェイト チャネルの重要性を考慮するアクティベーションを意識したアプローチを採用します。この方法では、チャネルごとのスケーリング手法を使用して、すべての重みを量子化しながら量子化誤差を最小限に抑える最適なスケーリング係数を決定します。OWQ [Lee et al., 2023] は、活性化異常が重み量子化の誤差をどのように増幅するかを分析することにより、活性化異常の影響を受けやすい重みに高い精度を適用する混合精度量子化スキームを導入しています。SpQR [Dettmers et al., 2023b] は外れ値の重みを特定して分離し、それらをより高い精度で保存し、他のすべての重みを 3 ~ 4 ビットに圧縮します。さらに、PTQ の多くの研究では、LLM の重みと活性化を定量化しようとしています。スムーズクアント [Xiao et al., 2022] は、外れ値の存在によってしばしば複雑になる活性化の定量化という課題に取り組んでいます。SmoothQuant は、さまざまなマーカーがチャネル全体で同様の変化を示すことを観察し、振幅を効果的に平滑化するチャネルごとのスケーリング変換を導入して、モデルの定量化を容易にします。LLM における活性化の定量化の複雑さを考慮すると、RPTQ [Yuan et al., 2023] は、異なるチャネル間で範囲が不均一であるという課題や、外れ値の存在によって引き起こされる問題を明らかにしています。この問題を解決するために、RPTQ は量子化のためにチャネルを戦略的にクラスターにグループ化し、チャネル全体の差異を効果的に軽減します。さらに、チャネルの再配置を層の正規化操作と線形層の重みに統合して、関連するオーバーヘッドを最小限に抑えます。OliVe [Guo et al., 2023] は、異常値と被害者のペア (OVP) 量子化をさらに採用し、異常値が隣の正常な値と比較して重要であると判断するため、低いハードウェア オーバーヘッドと高いパフォーマンス ゲインで異常値をローカルに処理します。重要じゃない。Outlier Suppression+ [Wei et al., 2023] では、活性化における有害な異常が非対称な分布を示し、主に特定のチャネルに集中していることを確認することで、異常の不一致を修正するチャネル レベルのパンおよびズーム操作を含む新しい戦略が導入されています。問題のあるチャネルの影響を軽減し、次の層の重みによって引き起こされる異常な非対称性と量子化エラーを考慮して、変換とスケーリングの最適値が定量的に分析されます。ZeroQuant-FP [Wu et al., 2023] は、特に FP8 および FP4 形式に焦点を当てて、浮動小数点 (FP) 量子化の適用可能性を調査しています。この調査では、LLM の場合、FP8 アクティベーションがパフォーマンスにおいて一貫して INT8 を上回り、重み量子化に関しては FP4 が INT4 と同等かそれ以上のパフォーマンスを発揮することが明らかになりました。重みとアクティベーションの違いによって引き起こされる課題に対処するために、ZeroQuant-FP ではすべてのスケーリング係数が 2 の累乗である必要があり、スケーリング係数を単一の計算グループに制限します。ZeroQuant-FP は、定量化手法の有効性をさらに高めるために、Low Rank Compensation (LoRC) 戦略も統合していることは注目に値します。[Yuan et al., 2023] は、異なるチャネル間で範囲が不均一であるという課題と、外れ値の存在によって引き起こされる問題を明らかにしました。この問題を解決するために、RPTQ は量子化のためにチャネルを戦略的にクラスターにグループ化し、チャネル全体の差異を効果的に軽減します。さらに、チャネルの再配置を層の正規化操作と線形層の重みに統合して、関連するオーバーヘッドを最小限に抑えます。OliVe [Guo et al., 2023] は、異常値と被害者のペア (OVP) 量子化をさらに採用し、異常値が隣の正常な値と比較して重要であると判断するため、低いハードウェア オーバーヘッドと高いパフォーマンス ゲインで異常値をローカルに処理します。重要じゃない。Outlier Suppression+ [Wei et al., 2023] では、活性化における有害な異常が非対称な分布を示し、主に特定のチャネルに集中していることを確認することで、異常の不一致を修正するチャネル レベルのパンおよびズーム操作を含む新しい戦略が導入されています。問題のあるチャネルの影響を軽減し、次の層の重みによって引き起こされる異常な非対称性と量子化エラーを考慮して、変換とスケーリングの最適値が定量的に分析されます。ZeroQuant-FP [Wu et al., 2023] は、特に FP8 および FP4 形式に焦点を当てて、浮動小数点 (FP) 量子化の適用可能性を調査しています。この調査では、LLM の場合、FP8 アクティベーションがパフォーマンスにおいて一貫して INT8 を上回り、重み量子化に関しては FP4 が INT4 と同等かそれ以上のパフォーマンスを発揮することが明らかになりました。重みとアクティベーションの違いによって引き起こされる課題に対処するために、ZeroQuant-FP ではすべてのスケーリング係数が 2 の累乗である必要があり、スケーリング係数を単一の計算グループに制限します。ZeroQuant-FP は、定量化手法の有効性をさらに高めるために、Low Rank Compensation (LoRC) 戦略も統合していることは注目に値します。[Yuan et al., 2023] は、異なるチャネル間で範囲が不均一であるという課題と、外れ値の存在によって引き起こされる問題を明らかにしました。この問題を解決するために、RPTQ は量子化のためにチャネルを戦略的にクラスターにグループ化し、チャネル全体の差異を効果的に軽減します。さらに、チャネルの再配置を層の正規化操作と線形層の重みに統合して、関連するオーバーヘッドを最小限に抑えます。OliVe [Guo et al., 2023] は、異常値と被害者のペア (OVP) 量子化をさらに採用し、異常値が隣の正常な値と比較して重要であると判断するため、低いハードウェア オーバーヘッドと高いパフォーマンス ゲインで異常値をローカルに処理します。重要じゃない。Outlier Suppression+ [Wei et al., 2023] では、活性化における有害な異常が非対称な分布を示し、主に特定のチャネルに集中していることを確認することで、異常の不一致を修正するチャネル レベルのパンおよびズーム操作を含む新しい戦略が導入されています。問題のあるチャネルの影響を軽減し、次の層の重みによって引き起こされる異常な非対称性と量子化エラーを考慮して、変換とスケーリングの最適値が定量的に分析されます。ZeroQuant-FP [Wu et al., 2023] は、特に FP8 および FP4 形式に焦点を当てて、浮動小数点 (FP) 量子化の適用可能性を調査しています。この調査では、LLM の場合、FP8 アクティベーションがパフォーマンスにおいて一貫して INT8 を上回り、重み量子化に関しては FP4 が INT4 と同等かそれ以上のパフォーマンスを発揮することが明らかになりました。重みとアクティベーションの違いによって引き起こされる課題に対処するために、ZeroQuant-FP ではすべてのスケーリング係数が 2 の累乗である必要があり、スケーリング係数を単一の計算グループに制限します。ZeroQuant-FP は、定量化手法の有効性をさらに高めるために、Low Rank Compensation (LoRC) 戦略も統合していることは注目に値します。[Wei et al., 2023] は、活性化における有害な異常が非対称な分布を示し、主に特定のチャネルに集中していることを確認することで異常の非対称表現を修正し、影響を軽減するためのチャネルレベルの変換とスケーリング操作を含む新しい戦略を導入しました。問題のあるチャネルを分析し、次の層の重みによって引き起こされる異常な非対称性と量子化誤差を考慮して、変換とスケーリングの最適値を定量的に分析します。ZeroQuant-FP [Wu et al., 2023] は、特に FP8 および FP4 形式に焦点を当てて、浮動小数点 (FP) 量子化の適用可能性を調査しています。この調査では、LLM の場合、FP8 アクティベーションがパフォーマンスにおいて一貫して INT8 を上回り、重み量子化に関しては FP4 が INT4 と同等かそれ以上のパフォーマンスを発揮することが明らかになりました。重みとアクティベーションの違いによって引き起こされる課題に対処するために、ZeroQuant-FP ではすべてのスケーリング係数が 2 の累乗である必要があり、スケーリング係数を単一の計算グループに制限します。ZeroQuant-FP は、定量化手法の有効性をさらに高めるために、Low Rank Compensation (LoRC) 戦略も統合していることは注目に値します。[Wei et al., 2023] は、活性化における有害な異常が非対称な分布を示し、主に特定のチャネルに集中していることを確認することで異常の非対称表現を修正し、影響を軽減するためのチャネルレベルの変換とスケーリング操作を含む新しい戦略を導入しました。問題のあるチャネルを分析し、次の層の重みによって引き起こされる異常な非対称性と量子化誤差を考慮して、変換とスケーリングの最適値を定量的に分析します。ZeroQuant-FP [Wu et al., 2023] は、特に FP8 および FP4 形式に焦点を当てて、浮動小数点 (FP) 量子化の適用可能性を調査しています。この調査では、LLM の場合、FP8 アクティベーションがパフォーマンスにおいて一貫して INT8 を上回り、重み量子化に関しては FP4 が INT4 と同等かそれ以上のパフォーマンスを発揮することが明らかになりました。重みとアクティベーションの違いによって引き起こされる課題に対処するために、ZeroQuant-FP ではすべてのスケーリング係数が 2 の累乗である必要があり、スケーリング係数を単一の計算グループに制限します。ZeroQuant-FP は、定量化手法の有効性をさらに高めるために、Low Rank Compensation (LoRC) 戦略も統合していることは注目に値します。

さらに、関連する作業は LLM 重みのビット数 (精度) に従って分類され、8 ビット量子化と低ビット量子化に分けることができます。

fd0ceee5b38c315b93850dd9e2bc5930.jpeg

図 4: 言語モデル (LLM) への定量的アプローチの概要。LLM 重みのビット数 (つまり、精度) に基づいて、これらを 8 ビット量子化と低ビット量子化の 2 つのカテゴリに分類します。

低秩分解(Low-Rank Factorization)

低ランク分解は、指定された重み行列をより小さい次元の 2 つ以上の行列に分解することによって近似することを目的としています。低ランク分解の背後にある中心的な考え方は、大きな重み行列 W の分解を見つけて、W ≈ UV となる 2 つの行列 U と V を求めることです。ここで、U は m×k 行列、V は k×n 行列です。 k は m や n よりもはるかに小さい。U と V の積は元の重み行列に近似するため、パラメーターの数と計算オーバーヘッドが大幅に削減されます。

LLM 研究におけるモデル圧縮の分野では、研究者は通常、LoRAPrune [Zhang et al.、2023a] や ZeroQuant-FP [Wu et al.、 2023] を使用して、パフォーマンスを維持しながらより効果的な圧縮を実現します。この分野の研究が進むにつれて、低ランク分解を圧縮 LLM に適用するさらなる開発が行われる可能性がありますが、LLM に対するその可能性を最大限に発揮するには、継続的な探索と実験が必要です。

2. 指標とベンチマーク

索引

パラメータの数: LLM の学習可能な重みまたは変数の総数。LLM はトレーニング中にこれらの重みを最適化する必要があります。

モデル サイズ: 重み、バイアス、その他の必要なコンポーネントを含む LLM 全体を保存するために必要なディスク領域またはメモリ フットプリントを指します。

圧縮率: 非圧縮 LLM の元のサイズと圧縮された LLM のサイズの比率。

推論時間: LLM が推論または予測中に入力データを処理し、応答を生成するのにかかる時間を測定します。

浮動小数点演算 (FLOP): 入力データの処理時に LLM によって実行される浮動小数点数 (通常は 32 ビットまたは 16 ビット) を含む算術演算の数の尺度。

基準

一般的な NLP ベンチマーク: GLUE、LAMBADA、LAMA、SQuAD。

HULK: 事前トレーニング済み言語モデル (PLM) のエネルギー効率の包括的な評価。

ELUE: 感情分析、自然言語推論、類似性、書き換えタスクをカバーする 6 つの NLP データセットを統合します。

3. 課題と今後の方向性

専用ベンチマーク。まず、モデル圧縮の評価には、広く受け入れられている標準設定がありません。第 2 に、これはモバイル デバイス上の典型的なタスクを最適に表現したものではない可能性があります。また、事前トレーニングされたモデル用に設計されたベンチマークは、モバイル デバイス上の一般的なタスクには適用できない場合があります。

パフォーマンスとサイズのトレードオフ。現在の研究には、このトレードオフに関する理論的および経験的な洞察がまだ不足しています。

動的LLM圧縮。現在の圧縮方法は、LLM の圧縮サイズと構造を決定するために依然として手動の設計に依存しているため、この手動の試みは実際の作業の妨げになります。

解釈可能性。解釈可能な圧縮方式の統合は、LLM 圧縮アプリケーションの進歩にとって重要な必要条件となるはずです。解釈可能な圧縮を採用すると、解釈可能性の問題に対処できるだけでなく、圧縮モデルの評価プロセスも簡素化されます。これにより、生産段階でのモデルの信頼性と予測可能性が向上します。


NLP グループに入る —> NLP コミュニケーション グループに参加する

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/133327640