BERTとERNIE記録

主に

BERT:用ディープ双方向変圧器の事前研修  言語Understandingtichu提出的BERT

そして、ERNIE:提案有益な事業体との学習記録ERNIE二つのモデルの拡張言語表現

BERT  

BERT見る前に見てhttps://www.cnblogs.com/dyl222/p/10888917.htmlを   、それが特徴抽出は、Transformerで使用しているため、提案された「注意が必要なのです」

論文の翻訳:

https://zhuanlan.zhihu.com/p/52248160

BERT特定の解釈を参照します。https://blog.csdn.net/yangfengling1023/article/details/84025313

BERTは、2段階モデル​​に属し、第一段階は、微調整の特定のタスク(微調整)を持つ大規模コーパス教師なし事前研修(事前電車)第二段階に基づいており、その最大の利点は、良い効果があります、質量教師なしコーパス多層変圧器から抽出された言語的な特徴によって一般に強いがあり、下流の作業は非常に良い機能の補完を再生することができます。

その最大の技術革新は、2つの新しい事前訓練ミッションは、それが提起ということです。

1、仮面LM

乱数入力ワードからマスクされたLMマスク、その文脈によって、これらのマスクを予測するだけターゲット単語は、そのに比べフルコンテキスト及びスプライシング双方向によって達成この弱いバイLSTMを使用することが可能です達成には、本当の双方向です。

ランダムな順序ですべての実験、私たちのそれぞれでWordPieceマークの15%をカバーします。

が、これは、私たちは、双方向事前研修モデルを行うことができますが、このアプローチは、まだ2つの欠点があります。最初は、このアプローチは、事前訓練参照モデルを作成し、[MASK]タグのパラメータ調整方法が存在しないため、変調方式は、互いに一致させることができないということです。この医療過誤をなくすために、我々は常に[MASK]で表される単語をカバーしていませんが、トレーニングデータ中の標識ランダム生成[MASK]の15%を表し、例えば、文の中で「私の犬は毛深いです」 「毛状」を選択し、マークは以下のようにして生成される:
*必ずしも[MASK]あるいは選択されたワードによって生成されたデータ:
*症例の80%:[MASK]に選択されたワードを置き換えるを、例えば:→「私の犬は、[MASK]です」「私の犬は毛である」
「私の犬は毛である」→「私の犬は、Appleである」のような:*代替選択された単語のランダムな単語の10%、
*は10%元の単語の場合には変わらない、といった:→「私の犬は毛深いです」 「私の犬は毛深いです」。

第二の欠点は、MLMの使用は、各バッチは、マークの15%のみが予測されることを意味するので、ときに収束ステップの複数の訓練の必要性。5.3では、私たちはそれだけの価値があるそうに比べて収束速度が左から右へMLMモデル(各マークを予測する)からより遅い説明しますが、大きな後押しとMLMをもたらすでしょう。

2.Next文予測

そのようなQ&Aと下流の自然言語推論(NLI)のような多くの重要なタスクは、2つの文の間の理解に基づいており、言語モデルは、この関係に直接キャプチャしていません。文の関係をXulianできるモデルを理解するために、私たちは事前に訓練された二値化は、タスクを簡単に任意の単一言語コーパスから生成された次の文を予測しました。具体的には、文Aと文B選択ランダムに選択された文の50%が予想される各事前学習モデル、Bは低級Aの場合の50%が、あります。例えば:

输入部分:

 これは、それぞれ、位置ベクトルとベクトルのセグメントを埋め込む入力ワード用の3つの部分で構成され

(:「再生」を参照してください - 「INGの##遊ぶ」翻訳者注)当社は、「##」のラベルによって解決単語断片(ワードピースが)3万WordPiece埋め込みに単語を使用します

文特別な分類埋め込み([CLS])の最初の使用のそれぞれ。このマーク。最終的な隠れ層において(すなわち、コンバータの出力)分類タスクに対応する図で同定された配列に重合されます。このタグで非分類タスクは無視されます。それは文ベクトルを表しているから、入力として分類に対処する選択[CLS]ベクトル下流タスクであります

 文として一緒に包装される文。我々は区別特殊なタグ([9月])でそれらを入れ、その後、私たちは第二の文章に、文Aの研究に埋め込ま追加するには、各タグの最初の文を与える、すべての最初の2つの方法でそれらを区別します文Bに埋め込まれ、それぞれ付加されたタグが学習され
、我々は、単一の入力文のための文が埋め込まれています*。

入力文ベクトルのセグメントは、入力文Bのベクトルセグメントは全て1であり、全て0であります

 BERTの利点:

1)MLM実双方向によって達成される、バイLSTM ELMOのみ弱い双方向達成順方向および逆方向スプライシングの特徴付けに使用されます。

2)CNNにおける特徴抽出トランスの選択は、またマルチ態様NLPが、多層を導入し、平行して可能に他のRNN LSTM系列特徴抽出に比べて、よりグローバルな情報と比較を得ることができます層及び多層画像は、単に用語を比較することはできないが、これは大きな前進、NLPの点で情報のより多くの富を抽出することができる多層の導入です。

3)最大の利点は、それが前の列車で抽出された言語的特徴は、画像ネットの画像フィールドのように、強力な一般化を持って、教師なし大規模コーパスを使用する方法についての明確な方向性でありますちょうど良い結果を達成することができるようになります小さなコーパス上の特定のタスクに基づいて下流の微調整をすること。

場所の情報がNLPの作業で非常に重要である、唯一の批判は、その位置の埋め込みの価値があるかもしれないが、位置情報の特定のタスクは、比較的高い需要がBERTバイLSTMの層を追加して、より良い結果を得ることができるかもしれませんが、これは、今度は完全にCNNとRNNにこれを放棄するためには、BERTの目的に反し。

おすすめ

転載: www.cnblogs.com/dyl222/p/10960842.html