事前訓練された言語モデル(2)NLPで

  FacebookはBenpian 2つの事前トレーニングモデル--SpanBERTとロベルタをもたらすために作られました。

一、チームのBert

  论文:SpanBERT:によって改善事前研修  スパンを代表と予測 

  GitHubの:https://github.com/facebookresearch/SpanBERT

  本論文では、新しい方法でマスクだけでなく、新たな損失関数オブジェクトを提案しています。バートは、NSPのタスクが有用である議論と。次に、どのように事前に訓練以下に示すように、具体的に、SpanBERT。

    

   ここで、第一のマスク戦略スパンマスク、上記のように。特定のアプローチは、最初のスパンの長さの幾何学的分布からサンプリングし、そして10の最大長さを制限し、その後ランダムサンプルは、スパンの初期位置で(例えば、均一に分布されます)。全体的に訓練ミッションは、トークンマスク、別のマスクの問題と同様のBERTの割合を予測することです。しかし、ここでの損失は、2つのオブジェクト、$ L_ {MLM} $と$ L_ {SBO} $、$ L_ {MLM} $のBERTなど、この$ L_ {} SBOスパンの境界によってのみ$を導入しましたマスク・ワードに予測2つのスパンでのトークン、次のように定式化:

    

   (。)は、次のように関数$ F $は表現しました:

    

  これらに加えて2つの戦略一の動的マスクは、データの前処理段階でBERTがランダムに異なる時間の10のマスク配列であるが、ここでは異なるマスク各時系列エポックの使用です。第二のBERTは、配列の長さの10%は、データ前処理ステージ512よりも短く、ここで、そのような操作は、文書がシーケンス512の長さのために採取されていているだけでなく、最後のシーケンスの長さが512未満とすることができる生成します。$ \に加えて、イプシロン$アダムは1E-8に設定されています。2人の著者によると、我々は、単一のトレーニングシーケンスBERTモデルを使用してNSPタスクを除去しながら、新たな戦略のBERTモデルを訓練しました。そのため、著者は、4つのモデルの性能比較を与えます:

  GoogleのBERT:GoogleのオープンソースBERT

  私たちのBERT:BERT訓練された上記の2つの戦略に基づき、

  上記の2つの戦略に基づき、およびBERT NSPを除去する作業:当社BERT-1seq

  SpanBERT:本論文では、モデルを提案しています

  第1の性能試験は、チームに設定されたデータの形で与えられます。

    

   SpanBERTが大幅に上昇したNSPタスクの除去に加えて、著者は長い距離情報を取得するための良いモデルではないことを、単一NSPのタスクシーケンスの長さが十分でないことを信じて、改善されています。また、他のリムーバブルQAタスクが大幅に改善されています

    

   個人的に私は特にSBOタスクが実際に少しフィット取り外し可能なQA作業で、建設中のタスクSpanBERTのでSpanBERTは、取り外し可能なQAタスクにおけるこのような大規模な増加を達成することができると思います。

  また、いくつかの改善が、作者に加えて、取り外し可能なQA作業にはあまり改善されなかったが、また、実験はランダムマスクスパンを表しますSpanBERT他のタスクにエンティティやフレーズの効果をマスクよりも優れています。

  要約すると、取り外し可能なQAで取り外し可能なQAの卓越したパフォーマンスにSpanBERT効果は試してみる価値です。

 

二,RoBERTa

  论文:ROBERTA:ロバスト最適化されたBERT事前訓練アプローチ

  GitHubの:https://github.com/brightmart/roberta_zh

  本論文では、BERTに基づいて微調整パラメータをやっている、それは究極のパラメータ調整として見ることができ、最終的な性能は、ほとんどの作業に完全に巻かBERT、およびXL-ネットを超えていないだけです。

   要約の下では、次の6つの場所での主な変更点は:

  1)変更1E-8によるアダムのパラメータ調整アルゴリズムは、$ \イプシロンます$ 1E-6を、0.999に$ \ beta_2 $ 0.98

  2)より多くのデータの使用は、16ギガバイト160ギガバイトから増加しました。

  3)静的、動的マスクは、マスクを置換しました。

  4)NSPタスクを除去し、全長配列を使用。

  5)より大きなバッチサイズ、さらにいくつかの手順を訓練。

  バイトレベルのBPEで置換6)文字レベルのBPE。

  次は著者の実験と併せて見てください。まず、タスクのパラメータを調整アダムは訓練をより安定させることができ、より良い性能を達成することができますが、実験データを与えていないです。パフォーマンスを向上させるためにデータを増加させることは疑いを超えています。

  動的なマスク

  40時間エポックは、各マスクシーケンスの平均を4回表示されるようにBERTは、本明細書で使用される動的マスクの、異なるデータマスク10回の前処理を行う、すなわち、異なるエポックを行うたびにマスク。次のように比較した結果は次のとおりです。

    

   実を言うと、私は多くの改善を感じていなかった私たちはモデルを訓練されている場合、すべての後に、データモデルは何回も見られます。

  モデル入力

  NSPかどうかのタスク、異なる入力シーケンスのパフォーマンスの性能比較は、ここで著者は、4つの入力フォームを提供します:

  1)セグメント対+ NSP 2つの文のペアのセグメント、およびタスクが導入され、NSP

  2)文章PAIR + NSP:文ペアの2つの文、及びNSPタスクの導入は、全長は512よりもはるかに小さくてもよいです。

  3)フル文:完全な文章の複数の識別子によって分離された原稿の断面ではなく、より512の全長、無タスクNSPへ

  4)DOC-文:複数の完全な文がありますが、ではなく、文書、これ以上の512以上の合計長さにわたって

  次のような特性は以下のとおりです。

    

   明らかに最悪に直接宣告、著者は、長さが十分ではありません主なシーケンスは、長距離モデルで結果が情報を取得することができないと信じています。そして、また、改善されたNSPタスクの影響を取り除きます。

  より大きなバッチサイズ、より多くのトレーニング時間

  著者はまた、モデルの性能を向上させることができ、トレーニングモデルを加速するか、バッチサイズを大きくすることが適切と考えています。

    

   ターンでのバッチサイズ8Kで著者は、研修の数を増加させた後、

    

  トレーニングのより多くを用いた実験から分かるように、性能は小さな改善ではありません。とにも同様の例トレーニングデータで見ることができ、ロベルタはBERTに優れています。

  短いROBERTAで最もXL-Netのを超えて、多くのタスクのBERTを超えて、成功のチューニングBERTパラメータです。

    

おすすめ

転載: www.cnblogs.com/jiangxinyang/p/11528215.html