勝利BERT!NLP前のトレーニングツール:小さなモデルは、高精度を持ち、単一GPUは、電車のことができるようになります

2020年3月13日午前12時37分59秒

凹型非寺院の下からサーティーン
量子ビットレポート|公共の数QbitAI

NLP前のトレーニングモデルは、あなたが持っているに値します。

呼ばれていますELECTRA効率がより高くなるだけでなく、GoogleのAIから、BERTの利点を持っています。

勝利BERT! NLP前のトレーニングツール:小さなモデルは、高精度を持ち、単一GPUは、電車のことができるようになります

 

ELECTRAが新しい事前トレーニング方法で、効果的であること、私たちは通常、そのトークンの交換を言う、正確なワードの文章を収集する方法を学ぶことが可能です。

どのように効果的?

ROBERTAと計算XLNetの量の4分の1だけは、GLUEに彼らのパフォーマンスに到達することができるようになります。そして、それはパフォーマンスSQUADに新たなブレークスルーをしました。

この手段そのGPTのモデルOpenAIの精度よりもさらに高いだけで4日間の研修ニーズにシングルGPUで、「小規模で、また大きな役割を担っています」。

ELECTRAは、事前研修の数が含まれTensorFlowオープンソースモデルのリリースとして使用され、簡単に使用する言語表現のモデルにされています。

事前研修速くしてみましょう

:既存のトレーニングモデルは、2つの広いカテゴリーに分けることができ、言語モデル  (言語モデル、LM)とマスク言語モデル(仮面の言語モデル、MLM)。

GPTは、次の単語を予測する特定のコンテキストに応じて、左から右に入力されたテキストを処理し、例えば、LM、の一種です。

そしてMLMに属しBERT、ロベルタとALBERTとして、彼らはマスクされ、入力中の単語の少量を予測することができます。MLMは、双方向の利点を持って、彼らは、テキスト・トークンの両側が予測されるように、「見る」ことができます。

MLMも、その欠点があります入力トークンと予後のそれぞれを、これらのモデルは、それによって各文から得られる情報の量を減少させる、非常に小さなサブセット(15%マスク)予測します。

勝利BERT! NLP前のトレーニングツール:小さなモデルは、高精度を持ち、単一GPUは、電車のことができるようになります

 

ELECTRAと呼ばれる新しい事前訓練ミッション、使用して検出トークンREPLACED  (RTD)を。

これは、すべての入力位置を学習としてLMのような双方向のモデルとしてMLMのトレーニング、のようなものです。

対決ネットワーク(GAN)を生成するに触発されたトレーニングモデルにより、「真」と「偽」の入力データを区別するために、ELECTRAです。

破壊のBERT入力法「[MASK]」トークン置換を使用することであるが、この方法は、トークンを使用して、いくつかの擬似トークンの入力を置き換える正しい(やや信頼できる)ではありません。

例えば、図「調理」「食べた」置換されていてもよいです。

勝利BERT! NLP前のトレーニングツール:小さなモデルは、高精度を持ち、単一GPUは、電車のことができるようになります

 

予測された次候補文[MASK]タグを使用してトークン、文トークン外マスクを用いて第1の予測を生成し、各センテンスのトークンを使用すると、元のまたは交換を区別するために決定されます。

勝利BERT! NLP前のトレーニングツール:小さなモデルは、高精度を持ち、単一GPUは、電車のことができるようになります

 

事前訓練の後、タスクが下流のために決定されます。

勝利BERT、SQUAD 2.0は最高に行わ

その他の高度なNLPのモデル比較とELECTRAを見つけることができます:

予算を計算する同じの下では、それはかなりのパフォーマンスロベルタとXLNetの計算された量の25%未満の場合は、以前の方法に比べて大きな改善は、あります。

勝利BERT! NLP前のトレーニングツール:小さなモデルは、高精度を持ち、単一GPUは、電車のことができるようになります

 

さらに効率を改善するために、研究者はまた、それが4日、単一のGPU上で訓練することができ、小さなELECTRAモデルを試してみました。

精度のない大規模なモデルではありませんが、多くを訓練するためにTPUを達成するために必要な、それでもさらにGPTよりELECTRA目立つ、振舞う(計算量のわずか1/30必要)。

最後に、大規模実装するかどうかを確認するために、研究者は大きなELECTRAを訓練するために、(T5の約10%、同量約ロベルタ)より多くの計算を用います。

結果はSQUAD 2.0テストセットに最良の結果を達成するために、あることを示しました。

勝利BERT! NLP前のトレーニングツール:小さなモデルは、高精度を持ち、単一GPUは、電車のことができるようになります

 

また、GLUEにそれ以上のロベルタ、XLNetとALBERTを超えました。

オープンソースコードがされています

実際には、研究はすでに際に、昨年9月初めに発表されました。しかし、どのような刺激的なのは、最近では、最終的にコードを開く、ということです!

勝利BERT! NLP前のトレーニングツール:小さなモデルは、高精度を持ち、単一GPUは、電車のことができるようになります

 

ELECTRAは、主に事前ミッションの訓練と微調整下流のコードです。現在サポートされているタスクは、テキスト分類、質問に対する回答やシーケンスマーカーを含みます。

GPU上の小さなELECTRAモデルの急速なトレーニングをサポートするためのオープンソースコード。

ELECTRAモデルは、現在、英語でのみ利用可能ですが、研究者はまた、今後は、多言語事前研修モデルを公開することができますことへの期待を表明しました。

ポータル

GoogleのAIのブログ:
https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html

GitHubの住所:
https://github.com/google-research/electra

論文住所:
https://openreview.net/pdf?id=r1xMH1BtvB

- END -

公開された472元の記事 ウォンの賞賛757 ビュー161万+

おすすめ

転載: blog.csdn.net/weixin_42137700/article/details/104855439