オープンソースのELECTRA中国の事前トレーニングモデル、110個のパラメータ、パフォーマンスに匹敵BERT

元-httpを参照してください。ありがとうございました://bjbsair.com/2020-03-27/tech-info/7050/
昨年11月に、NLPグレート神マニング共同GoogleのドゥーELECTRAがリリースされた、NLP界全体に迅速に人気、ELECTRA-小モデルパラメータは、性能はまだBERT、ロベルタおよび他のモデルに匹敵する、唯一の1/10 BERT-ベースモデルでした。

さらに最近では、GoogleがついにELECTRAを開き、大学や企業の大きな力計算の欠如のために、単純に天の恵みである事前研修モデルを、発行しました。

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

しかし、その前のトレーニングモデルは英語でのみリリースされ、彼らは多言語バージョンとしてBERTとしてではありません。(中国語など)他の言語の研究者のために、それは非常に残念です。

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

この問題を解決するために、今日オープンソースに基づいてHIT iFlyTek共同研究所(HFL)ELECTRAは、ELECTRA事前研修モデルの中国語版をリリースしました。

1、ELECTRA

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

最初のトップ2019年北京大学遠総会に登場スタンフォードグループSAILラボマニングとGoogleの脳の研究チームのELECTRA事前研修モデル。新しいテキスト事前トレーニングモデルとして、ELECTRA革新的なデザインのアイデア、より少ないリソース消費量と少ないパラメータを計算、すぐに信者の多数を集めました。特に解放最後の月ICLR 2020紙受信した後、それはかなり攪拌NLPの円を引き起こしています。

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

論文は、リンクされています

https://openreview.net/forum?id=r1xMH1BtvB

このチャートの論文はすべての問題を説明することができます:

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

凡例:右は拡大し、左の結果です。

上記のように、ELECTRAモデルは少ないトレーニングステップ前提で、他のモデルの訓練を受けた前よりも優れた効果を得ることができます。また、モデルの大きさ、および同一のデータを算出する場合、そのようなBERTとXLNetとしてELECTRAベースMLM、より優れ方法です。

したがって、従来式ELECTRA言語学習方法が示さ、前者はより高い効率を有し、かつ少ない計算パラメータ(1/10のみBERTベースのELECTRA-少量)。

発電機とディスクリミネータ:二つの部分を含んでそれらの前に訓練新しいフレームに基づいて、このような良い結果を達成することができELECTRA。

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

  • 発電機:A小MLM、位置[MASK]オリジナル単語予測。ジェネレータはやる入力テキストの単語の一部を置き換えるために使用されます。
  • 弁別器:各ワードはすなわち置き換えトークン検出(RTD)事前トレーニングミッション、置換BERT元仮面言語モデル(MLM)の使用、入力文が交換されたか否かが判断されます。これは次の文の予測(NSP)タスクを使用していないことに注意してください。

プレトレーニング・フェーズの終了後、モデルを微調整としてのみ下流タスクグループ識別器を使用します。

言い換えれば、GAN CVの著者は、自然言語処理の分野に適用されます。

GANトレーニング目標は似ていますが、いくつかの重要な相違点が残っているにもかかわらず、それは、ことは注目に値します。ビルダーが正しいトークンを生成するために発生した場合、すべての最初には、トークンは「偽物」「本物」とみなされていません。このモデルは、適度な結果、下流の作業性を向上できるようにします。さらに重要なのは、最尤を使用して発電機がない対決的トレーニングによって欺く差別に、訓練します。

2、中国ELECTRA事前トレーニングモデル

現在では、オープンソースの英語でELECTRA唯一の事前研修モデルのモデルを事前に訓練。しかし、他の多くの世界の言語(例えば中国語)の学者があり、彼らはその対応する言語の事前研修のモデルを必要としています。

しかし、公式のGoogle BERT、ロベルタと多言語バージョンの他の事前のトレーニングモデルに加えて、他の例XLNet、T5は英語のみで、何ら対応するマルチ言語版はありません。一つの理由は、英語のみで事前に訓練を受けたんに比べて、つまり、割合の異なる言語コーパス、あまりにも面倒を展開する対応する必要性を収集するための多言語コーパスの必要性を事前に訓練を受けました。そのため、大規模の確率は、ELECTRAは、事前のトレーニングモデルの中国語版やバージョンではありません。

一方、中国のコミュニティとして、中国の事前研修を行う方法についての我々自身の人々は、対応する事前研修を行うために私たち自身の、より理解され、より良い、Googleの公式より行うことができます。

オープンソースのリサーチディレクター崔鳴が事前研修モデルの中国語版を訓練するために事前研修のためのオープンソースコードに基づいており、チーム、プラス中国のデータセットを主導する前に共同でHIT研究所上級研究員が飛んでからのニュースは、シリーズでは、同様の作業を行っています。例えば、BERT系列モデルの中国語版、中国語版XLNetとGitHubの上の他のオープンソースは、良好な応答の後、評価ミッションで多くの中国人は多くのチームを持って改善するために、オープンソースのそれらの前のトレーニングモデルを使用しています。

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

オープンソース・アドレスします。https://github.com/ymcui/Chinese-BERT-wwm

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

オープンソース・アドレスします。https://github.com/ymcui/Chinese-XLNet

再びELECTRAの中国語版を発売GoogleのオープンソースELECTRA、崔鳴、後。

データセットを訓練し、まだトレーニングBERT系列モデルがデータと一致する前に、主に大規模な中国のWikipediaや一般的なテキスト(中国語ウェブクローリング及び清掃)から、総トークンリーチ5.4B。WordPiece語彙用語21128トークンを含むオリジナルの語彙GoogleのBERTを、次の。

このオープンソースで、ちょうどELECTRA-ベースとELECTRA-小さな2つのモデルを発売崔鳴、。多くのパラメータに崔鳴表現、大規模なバージョンによると、以上より困難なパラメータ設定は、そのモデルの発売はそれに応じて遅れていること。

これは、パラメータの小さなバージョンのために約7日間研修の2つのバージョン、1024のそのバッチを調整する訓練で1/10の唯一のベースバージョン、崔鳴、(ベース4回)をリリースしました。具体的な詳細とhyperparametricは、以下の(保持を言及していないデフォルトパラメータ):

  • ELECTRAベース:12層、中間層768,12ヘッド注意、レート2E-4、batch256、512の最大長さは、トレーニングステップ1M学習
  • ELECTRA-小さな:12層、中間層256,4ヘッドの注意、学習率の5E-4、batch1024、512の最大長、トレーニングステップ1M

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

ELECTRA-小さなわずか46 M.

前シリーズモデルの中国語版、彼らは以前とトレーニングの間のコントラストの効果になります実際には、崔鳴、。

含む比較用モデル:ELECTRA小/ベース、BERTベース、BERT-WWM、BERT-WWM-EXT、ROBERTA-WWM-EXT、RBT3。

6つのタスクのコントラスト:

  • CMRC 2018(キュイら、2019):読書テキスト断片抽出タイプ(簡体字中国語)
  • DRCD(シャオら、2018):読書テキスト断片抽出タイプ(中国語)
  • XNLI(Conneauら、2018):自然言語推論(三つのカテゴリー)
  • ChnSentiCorp:感情分析(バイナリ)
  • LCQMC(Liuら、2018):マッチング文(バイナリ)
  • BQコーパス(Chenら、2018):一致文章(バイナリ)

微調整の下流のタスクは、オリジナルの紙のELECTRA-小型/学習率のベースモデルには、デフォルト3E-4および1E-4を設定します。これは、ことは注目に値する場所を任意のタスクのための無微調整と微調整パラメータ。結果の信頼性を確保するために、同じモデルのため、それらは10倍、モデルのパフォーマンス報告の最大値と平均値(括弧内の平均値)は、異なるランダムシードトレーニングを使用します。

結果は以下の通りであります:

簡体字中国語読解:CMRC 2018(評価指標:EM / F1)

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

繁体字中国語読解:DRCD(評価指標:EM / F1)

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

自然言語推論:XNLI(評価指標:精度)

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

センチメント分析:ChnSentiCorp(評価指標:精度)

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

文分類:LCQMC(評価指標:精度)

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

文分類:BQコーパス(評価指標:精度)

オープンソースのELECTRA中国の事前トレーニングモデル、パラメータの唯一の1/10量、パフォーマンスはまだ匹敵しBERTです

ELECTRA小型モデル、かなり多くの三層ROBERTA効果(RBT3)、あるいは近い効果BERTベースに、パラメータ量だけBERTベースのモデルに比べて最もタスクに影響するため、上記の結果から分かるように1/10。ELECTRA-ベースモデルの場合、ロベルタ・WWM-EXTのも、BERT-ベース効果よりも、ほとんどのタスク。

その具体的な使用は、GitHubのプロジェクトを表示することができます。

https://github.com/ymcui/Chinese-ELECTRA

オリジナルの記事は、0を発表 ウォンの賞賛0 ビュー269

おすすめ

転載: blog.csdn.net/zxjoke/article/details/105139843