勝利BERT、オープンソースのGoogleの最高のNLPの事前トレーニングモデル

2020年3月16日夜07時35分

リード:小型精密モデルは、効率が有意に良好MLMを超えました。

注:最近、GoogleはTensorFlowリリースを超えるオープンソースモデルとしてAI言語モデルELECTRAを発表しました。この新しい方法は、同時に学習、トレーニングモデル、双方向からのすべての入力を配置することが可能となる、代替トークン検出器(RTD)と呼ばれる事前訓練ミッションを使用しています。

そして、既存の方法よりも優れた性能ELECTRA、同じコンピューティングリソースの場合には、唯一の1/30のパラメータの量のNOの場合には不利なシリーズBERT性能の最も先進的なモデルより得られませんでした。Googleは、関連資料では、このオープンソース、次のようにコンパイルし配置するために、コメントの雷鋒ネットワークAIソースの結果を説明し発表しました。

勝利BERT、オープンソースのGoogleの最高のNLPの事前トレーニングモデル

言語モデルの現状と問題点

BERT、ROBERTA、XLNet、ALBERT T5など:近年では、語学研修前モデルの最新の進歩は、自然言語処理には、また、最も先進的なモデルのいくつかを含め、大幅な進歩を遂げたことができます。

これらの方法は、デザインが異なるが、(例:感情分析とトラブルシューティングなど)NLPタスクの使用、特にが、微調整、つまり同じ考え、持っている:非標識テキストの大量の使用は、言語の共通理解を構築しますモデル。

例えば、言語モデル(LM):したがって、既存の事前トレーニング方法は、通常、2つのカテゴリに分類されているGPTを。次の単語を予測するために、その後、予め与えられたコンテキストの場合には、左から右に順に入力されたテキストを処理するような方法。

別のマスクは、例えば、言語モデル(MLM)である:BERT、ロベルタアルバート。入力の予測満足している単語モデルのような少量がブロックされています。MLMはLMに比べて、それはあなたが左右に単語を予測するテキストを見ることができるので、それは、双方向予測の利点を持っています。

しかし、欠点MLMモデル予測は、計算コストが増加し、予測モデルは、それによってそれらが各センテンスから受け取る情報の量を減少させる、入力シンボル(15%のマスク部分)の小さなサブセットに限定されている、あります。

勝利BERT、オープンソースのGoogleの最高のNLPの事前トレーニングモデル

既存のトレーニング方法とその欠点。矢印は、所与の出力表現(矩形)を生成するために使用されるタグを示します。左:単語だけを使用して(例えば、GPTなど)伝統的な言語モデルは、現在のコンテキストの左。右:マスク言語モデル(例えばBERT)は、各入力に対して、コンテキストを使用して、左から右へ、しかし予測単語の一部のみれます

新しい事前研修モデルELECTRA

正確に言語モデルの2種類以上の欠点を克服するために、GoogleはELECTRA(効率的に正確に分類し、トークンの補充というエンコーダーを学ぶ)言語モデルを提案しました。これは重要な点は、問題の既存の言語モデルに対処するための発電機とではないとして、プリコーダトレーニングテキスト識別子で、事前研修のための新しい方法です。

勝利BERT、オープンソースのGoogleの最高のNLPの事前トレーニングモデル

論文住所:https://openreview.net/pdf?id=r1xMH1BtvB  

計算量モデルデータと同じサイズで、この方法の性能は、例えば、BERTとXLNet、MLM型の方法に著しく優れている。また、ELECTRA小さなモデルは、四日間の訓練を得るために、唯一のGPUを必要とします。

具体的な実験データは、このモデルは5点、さらに良好な結果(このモデルは30倍以上のコンピューティングパワーを使用)GPTモデルよりも大きい小さなモデルスコアBERTの高い接着剤よりも小さいことを示しています。

計算とELECTRAの量が1/4以下を使用する場合、および自然言語理解を参照して、パフォーマンスロベルタGLUE XLNetを達成することができます。あなたは大規模なELECTRA、ランキングSQUAD 2.0 Qデータセットと言語理解タスク、最先端のパフォーマンスへのアクセスでモデルを訓練するために複数のコンピュータを使用している場合。(特定のデータ第4のセクションを参照)。

核となるアイデア - トークン検出を交換します

学びながら(例えば、LM)、双方向モデルは(例えば:MLM)の訓練を受けた:ELECTRAは位置からのすべての入力があること、代替検出トークン(RTD)事前に訓練された新しいタスクを使用して呼ばれます。

具体的には、ELECTRAの目標は、入力された単語を区別するために学ぶことです。これは、事前研修や微調整の問題をもたらすことに矛盾マスクを解く入力サンプリング分布、で単語を置き換えるために提案からではなく、マスクを使用していません。

次に、各単語を予測する識別器を再訓練モデルは、元の単語または交換ワードです。弁別器の利点は次のとおりです。計算がより効果的であるように、すべての単語から学習モデルは、カバーするために言葉だけを使用して、むしろMLMとしてよりも、入力されています。

多くの開発者が方法を学習対立を考えると、ELECTRAは本当に対決ネットワーク(GAN)を生成するためにインスピレーションを得ました。しかし、違いは、モデルが似ていますが、非対立最大学習を使用しています、です。

下図の例では、単語を置き換えることができる「調理」「食べました。」これはいくつかの真実ではあるが、それは全体の文脈に適合していません。元のタグが交換された入力を決定又は同じままにするモデル(すなわち、識別器)にタスクのニーズを事前訓練。

これは、モデルのバイナリ分類タスクは、各入力単語に適用されるからである、とだけでなく、マスクワードの少量(モデルにおけるBERTパターンは15%であった)、したがって、RTDの方法の効率は、MLMよりも高くなります。また、これはあまりELECTRAだけの例では、我々は同じ理由で、他の言語モデルの性能を達成できる理由を説明します。

勝利BERT、オープンソースのGoogleの最高のNLPの事前トレーニングモデル

とき位置学習からのすべての入力、双方向の交換トークン列車検知

前記交換トークンジェネレータからのニューラルネットワーク。別の後にソフトマックス層を用い、その後、ネットワークを介してベクトル表現を取得し、ターゲットマスク発生、すなわち所定の入力シーケンスの後、一定の割合(典型的には15%)に応じて入力ワードマスクで置換され、訓練された言語モデルでありますマスクされた位置を予測する単語列を入力してください。

GANと同様の構造ジェネレータが、テキストはそう取得するには、タスクにこの方法を適用することは困難であるが、目的関数を訓練することは、最大尤単語をカバーするものです。

その後、識別器生成部、及び埋め込み同じ入力ワードを共有します。元の入力シーケンスに対応する単語の位置は、それが代替として決定され、同じでない場合、入力シーケンスのターゲット弁別器は、各位置をワードジェネレータによって置換されているかどうかを決定することです。

勝利BERT、オープンソースのGoogleの最高のNLPの事前トレーニングモデル

識別器生成とニューラルネットワークモデル

具体的な調査結果のコントラスト

研究者はELECTRAは、他のNLPで最新モデルを比較して、以前の方法は、その性能とロベルタとXLNetかなり、および使用中の大幅な改善となっていると、同じ予算の計算与えられた場合には、それが比較されることがわかっているだろう計算量の4分の1よりも小さいです。

勝利BERT、オープンソースのGoogleの最高のNLPの事前トレーニングモデル

(プ単位)トレーニングモデルのx軸示し演算量、y軸を示しDEV GLUEスコア。既存の事前訓練を受けたNLPのモデルと比較すると、ELECTRA学習効率がはるかに高いです。現在の最良のモデルが(例えば、T5(11B))は、図面上の適切な接着剤は、ではないことに注目すべきであるため、その使用以外の計算モデルもはるか(10倍以上ロベルタ)

さらに効率を改善するために、研究者はよく4日間で固有の単一GPUを訓練することができ、小さなELECTRAモデルを試してみました。

それは同じTPU大型モデルの精度の多くを訓練する必要性を達成することは不可能であるが、計算のパフォーマンスELECTRA-小さいが、まだ非常に良い、より良いよりGPT、および量は、必要なだけの三分の一。

次いで、この結果は大規模であることができるかどうかを試験するために、研究者は(T5の約10%、同量約ロベルタ)より多くの計算を使用する大ELECTRAモデルを訓練しました。

テストを行うための研究者に大きなELECTRA、ロベルタ、XLNet、SQUAD 2.0パフォーマンス・データ・セットでのBERT ALBERTモデルと答え質問、以下の表に示された結果、あなたはチャートのGLUE上で見ることができ、ELECTRAは、他のすべてのモデルを上回りました。

しかし、大規模なT5-11bモデルに比べて、GLUEに後者の得点はまだ高いです。しかし、それはELECTRAの大きさは三分の一、およびトレーニングを計算するのは10%であることは注目に値します。

勝利BERT、オープンソースのGoogleの最高のNLPの事前トレーニングモデル

SQUAD 2.0データセットはELECTRA-大型およびその他の最新モデルをスコア

現在、下流のタスクの事前研修ELECTRAと微調整のためのコードがリリースされている、現在のサポートタスクが含まれます:テキスト分類、質問とシーケンスマーカーを。

コードは、GPU上の小さなELECTRAモデルの急速なトレーニングをサポートしています。その後、Googleはまた、コードをリリースする計画はELECTRA-大、ELECTRA-ベースとELECTRA-小型のトレーニングを事前に適用されます。(英語では、現在入手可能なELECTRAモデルは、フォローアップは、より多くの言語でリリースされます)

オリジナル住所:

https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html 

GitHubの住所:

https://github.com/google-research/electra 

公開された472元の記事 ウォンの賞賛757 ビュー161万+

おすすめ

転載: blog.csdn.net/weixin_42137700/article/details/104930578