機能の喪失だけで、ハイパーパラメータを圧縮することができBERT、MSRAは、新しいモデルの圧縮方法に言及します

2020年3月13日午後02時37分47秒

ほとんど人間レポート

参加:悪魔

武漢大学、航空宇宙の北京大学とマイクロソフトリサーチアジア圧迫モデルからの研究では、新たな方向性を提供します。

機能の喪失だけで、ハイパーパラメータを圧縮することができBERT、MSRAは、新しいモデルの圧縮方法に言及します

 

 

論文リンクします。https://arxiv.org/pdf/2002.02925.pdf

本論文でプレゼント新モデル圧縮方法は、緩やかな圧縮BERTによって効果的にモジュール(プログレッシブモジュールを交換する)に置き換えることができます。第一の方法は、前駆体BERTモジュールを複数に分割し、よりコンパクトな代替モジュールを構築され、次いで、ランダムに別のモジュール、元のモジュールの挙動を模倣する代わりトレーニングモジュールと元のモジュールを交換してください。トレーニング中、研究者は徐々にスムーズに行うトレーニングプロセスを作り、元のモデルとコンパクト・モデルの間の相互作用のより深いレベルを達成するために、交換用モジュールの確率を増加させました。

唯一の損失関数とハイパーパラメータで、開発者はパラメータ調整の退屈なプロセスから解放BERT圧縮のための蒸留方法、の事前知識と比較しました。前GLUE参照知識蒸留プロセス上の方法の性能には、新しいモデルの圧縮方向を開きます。

モデル圧縮方法ノウ

深い学習の有病率は、素敵な神経モデルの多くが誕生した、様々な分野における現在の最適なパフォーマンスをしました。特に、自然言語処理(NLP)分野では、事前研修とアシスタントは、新たな規範のタスクの過半数となっています。トランスベースの事前トレーニングモデルは、自然言語理解(NLU)と自然言語生成(NLG)分野で主流となっています。「オーバーパラメータ「属性の利益からこれらのモデルは、彼らはしばしば、このような高価なのモデル計算を行い、何百万かのパラメータの十億を、含まれている、そしてそれは、ビューの高レイテンシとメモリ消費量の点から計算されますそれは非効率的です。この欠陥は大幅に生産環境におけるこのようなモデルの適用を妨げてきました。

この問題を解決するために、多くの研究者は、ニューラルネットワークの圧縮技術を提案しました。定量、重量および知識蒸留(KD)をプルーニング:一般的に、これらの技術は、3つのカテゴリに分類することができます。これは、KDは、事前に訓練された言語モデルを圧縮し、そのための大きな懸念されてすることができます。教師が小さいモデルにモデル埋め込まれた知識を移行しますので、大規模なモデル教師「教える」学生教師の模倣行動にコンパクトモデルを使用してKD。しかし、学生モデルのパフォーマンスステータスがうまく設計された蒸留損失関数に依存し、それはこの関数は、生徒が教師の行動のモデルを模倣することができますです。KD、より複雑なモデルの使用に関する最近の研究では、より良い性能を達成するために、損失の特定の機能を蒸留します。

圧縮圧縮モデル新しいアイデア--Theseus

明示的にモデルKDから損失関数モデル教師と生徒を最小限に抑えるために蒸留によって異なり、それは研究の圧縮方式のための新しいモデルを提案しています。(木質ボードは徐々に交換する場合は、元の木材の全てが木材ではなく、船やオリジナルの船があることまで、?)の研究者は、有名な哲学的思考実験「テセウスの船」に触発された、提案します徐々に少なく交換モジュールのパラメータの元のモジュールBERTを置き換えBERTためテセウス圧縮(BERT-の-テセウス)。研究者「先輩」(前身)と呼ばれる元のモデル、および「後継者」(後継者)と呼ばれる圧縮モデル、KDで教師と生徒に対応します。

次のように図1に示した方法の作業の流れ:まず、各モジュール先行モジュール(すなわち、先行モデルモジュール)のための代替(後継)を指定すると、トレーニング段階における代替モジュールと一定の確率対応前身ランダム置換モジュールは、古いものと新しいモジュールの組み合わせの形で訓練を続けて、モデルの収束、すべてのモジュールの後継モデルの後継、次に実行する推論の組み合わせ。これは、コンパクトの古いモデルに後継者の大規模なモデルを圧縮することが可能となります。

機能の喪失だけで、ハイパーパラメータを圧縮することができBERT、MSRAは、新しいモデルの圧縮方法に言及します

 

図1:BERT-の-テセウスワークフロー。

テセウスの圧縮とKDのアイデアは、私たちは、元のモデルの挙動を模倣するために圧縮されたモデルを奨励しているが、テセウスの圧縮は、多くのユニークな利点を持っている、似ています。

まず、圧縮過程における機能のテセウス圧縮のみタスク固有の損失。損失関数以外特定のタスクだけでなく、最適化対象の関数として、複数の蒸留又は損失に基づく方法およびKD。これにより、圧縮端の異なる段階を結合する圧縮プロセス全体を通して使用テセウス方法、関数の唯一の損失は、フォームに記入します。加えて、異なるタスクと損失とのバランスウェイトの各重み関数のための複数のデータセットを選択する機能の喪失は、しばしば時間のかかる作業であることができます。

第二に、別の最近の研究[15]、テセウスは、圧縮モデルの可能性の広い範囲を提供する、トランス特定の機能を圧縮する圧縮を使用しません。

第三には、のみ推論を行う異なった元のモデルのKDで、本方法は、相互作用の勾配画分のより深いレベルを達成するために、圧縮トレインと共に古いモデルの後継モデルを可能にし、トレーニングプロセスを簡素化します。また、モジュールとモジュールの先行後続モジュールの異なる組み合わせの混合は、追加の正則化項(同様のドロップアウト)を追加します。方法はまた、コース基づいている(カリキュラム学習)ドライブモジュールの交換方法は、交換用モジュール確率が徐々に良好な圧縮性能のBERTを達成する、ローからハイに増大します。

本研究の貢献は以下のとおりです。

  • 新しい方法テセウス圧縮。この方法は、圧縮方向のための新しいモデルが提供され、唯一の損失関数とハイパーパラメータを使用します。
  • BERTの動作速度を取得し、この圧縮方法のモデルを使用すると、1.94倍の前であり、KDは、他の圧縮ベースラインよりも優れている基づいて、元のモデルの性能の98%以上を保持しています。

BERT-の-テセウス

次に、我々はもちろん、モジュールの交換や学習方法を見てください。BERT-の-テセウスワークフロー方法は、図を参照してください。

この例では、シニア研究者モデルP層6 =は{prd_1は、..、prd_3} 3 = {scc_1、..、scc_3は}後継モデル層にSを圧縮しました。prd_i scc_iと二つの層と1層が含まれています。トレーニングフェーズでモジュールを交換(A)は、確率pでそれぞれ対応する後続モジュールscc_iに古いprd_iモジュールを交換します。(B)の後継とトリミング推論相、計算を実行するために一緒にすべての後続モジュールscc_1..3の組み合わせ。

機能の喪失だけで、ハイパーパラメータを圧縮することができBERT、MSRAは、新しいモデルの圧縮方法に言及します

 

図2:グラフ定数置換および置換モジュール交換レートスケジューラ。1)圧縮モジュール、2)トリミングにより置換:図に示す2つの圧縮は、異なるグレーとテセウスステージ。

実験

今、私たちは、BERTの結果を得るためテセウスの圧縮を見てください。研究結果を分析するための、テセウスBERT-及び他の圧縮方法を比較し、そしてさらなる実験によって。

ベースライン

表1に示すように、層の数は、研究者、パラメータ量、機能の喪失を比較し、外部のデータ・モデルを使用する新しい方法と従来の方法とは無関係です。

機能の喪失だけで、ハイパーパラメータを圧縮することができBERT、MSRAは、新しいモデルの圧縮方法に言及します

 

表1:異なる圧縮方法のBERTの比較。「MSE」とクロスエントロピー及び標準偏差を表す「CE」とは、「KD」は、上流と下流のタスクで事前訓練ミッションにおける知識損失関数の蒸留、「CETASK」および「CEMLM」が表現と計算シェーディング言語モデルを表していますクロスエントロピー。その他の損失関数は、関連する論文を参照してください。

実験結果

表2に示すGLUEモデル開発セットの実験の結果。研究者たちは、それが表3に示されている公式のランキング結果を受け、テストサーバーのGLUEに結果を提出する予測します。

機能の喪失だけで、ハイパーパラメータを圧縮することができBERT、MSRAは、新しいモデルの圧縮方法に言及します

 

表2:開発GLUEセットに関する実験結果。データの各セットの下の数は、データセットを訓練の数を表します。

機能の喪失だけで、ハイパーパラメータを圧縮することができBERT、MSRAは、新しいモデルの圧縮方法に言及します

 

表3:テストセットのGLUEサーバーの結果。データの各セットの下の数は、データセットを訓練の数を表します。

一般的なモデル

著者もGLUEで直接使用するために利用可能な圧縮MNLI 6後継モデルの重み上の層、微調整を提供しても、より多くのDistillBERT性能よりも作られています。変圧ライブラリを使えば、簡単にモデルの重みをロードするために3行のコードを使用することができます。

変圧器からAutoTokenizer、AutoModelトークナイザ= AutoTokenizer.frompretrained( "canwenxu / BERTオブテセウス-MNLI")モデル= AutoModel.frompretrained( "canwenxu / BERTオブテセウス-MNLI")をインポート

圧縮モデル、研究者の微調整、他の文の分類タスクの後継モデルと比較した後とDistillBERTのパフォーマンス(表4参照)。同じ性能を達成するために、MRPC上の一般的なモデル、およびその他のタスク文レベルのパフォーマンスDistillBERTよりも有意に良好。

 

機能の喪失だけで、ハイパーパラメータを圧縮することができBERT、MSRAは、新しいモデルの圧縮方法に言及します

 

表4:GLUE-devの上で訓練を受け、本研究の一般的なモデルの結果。

公開された472元の記事 ウォンの賞賛757 ビュー161万+

おすすめ

転載: blog.csdn.net/weixin_42137700/article/details/104855461