ディープラーニングの深い理解 - BERT 派生モデル: RoBERTa (堅牢に最適化された BERT 事前トレーニング アプローチ)

カテゴリ:「ディープラーニングを深く理解する」総合カタログ


この段階では、事前トレーニングされた言語モデルは、より大きなモデルとより多くのデータを通じて常に優れたパフォーマンスを達成できます。GPT シリーズのモデルは、そのような最適化の方向性を示すモデルです。RoBERTa(モデル名は論文名「A Robustly Optimized BERT Pretraining Approach」に由来)は、BERTをベースに学習データを増やして完全に学習させるためにFacebookが提案した事前学習済み言語モデルです。つまり、RoBERTa と BERT の主な違いは次のとおりです。

  • より多くのトレーニング データを使用します。
  • ダイナミックマスクを使用してトレーニングされました。ダイナミックマスクの改良はともかく、RoBERTaはBERTの強化版であり、その効果は抜群です。

アルゴリズムの詳細

トレーニングデータ

RoBERTa は、BERT で使用される 16 GB のトレーニング データをはるかに上回る 160 GB のトレーニング データを使用します。トレーニング データには、具体的には次のものが含まれます。

  • 書籍のテキストと英語の Wikipedia テキスト、つまり BERT で使用されるトレーニング セット、合計 16GB
  • 2016 年 9 月から 2019 年 2 月までにクロールされた 6,300 万件の英語プレス リリースのテキスト、合計 75GB
  • ウェブページのテキストは Reddit の高評価 URL からクロールされ、HTML タグを削除すると合計 38GB に達しました
  • Common Crawl データセットから取得したストーリーのコレクション (合計 31 GB)

全体として、このモデルは、モデル サイズを変更せずに、BERT の 10 倍のトレーニング データを使用して大幅な改善を達成できます。

ダイナミックマスク

BERTのMLMトレーニング手法は静的マスクを使用しており、その特徴はトレーニングデータが処理される時点でマスキング処理が完了すること、つまりモデルによってトレーニングされたデータはすべて固定マスクを持つデータであり、同じトレーニングデータが前処理されることです。 (単語分割) 、BPE など) 以降は変わりません。RoBERTa が使用するダイナミック マスクは、モデルに入力するときに入力データをランダムにマスクすることです。つまり、同じトレーニング データが異なるトレーニング ステップごとに異なるマスクを使用し、その利点はトレーニング データ セットが増加しないことです。モデルトレーニングのデータの多様性を高める

この段階では、言語モデルの事前トレーニングの分野でより大きなバッチ サイズとより多くのトレーニング データを使用し、より長期間のトレーニングを行うことで、モデルのパフォーマンスを大幅に向上させることができます。多くのテキスト理解タスクにおいて、RoBERTa は SOTA パフォーマンスを達成しており、その事前トレーニング済み言語モデルは BERT の拡張バージョンとみなされており、実際には、条件が許せば BERT を直接置き換えることができます。

参考文献:
[1] Lecun Y、Bengio Y、Hinton G. Deep learning[J]. Nature、2015 [
2] Aston Zhang、Zack C. Lipton、Mu Li、Alex J. Smola. Dive Into Deep Learning[J] 。 arXiv プレプリント arXiv:2106.11342、2021.
[3] Che Wanxiang、Cui Yiming、Guo Jiang. Natural Language Processing: A Method Based on Pre-Training Model [M]. Electronic Industry Press、2021. [4] Shao Hao、Liu
Yifeng . 事前トレーニング言語モデル [M]. Electronic Industry Press, 2021.
[5] He Han. Introduction to Natural Language Processing [M]. People's Posts and Telecommunications Press, 2019 [6
] Sudharsan Ravichandiran. BERT 基本チュートリアル: Transformer Largeモデルの実践 [ M]. People's Posts and Telecommunications Press、2023
[7] Wu Maogui、Wang Honxing. Simple Embedding: Principle Analysis and Application Practice [M]. Machinery Industry Press、2021.

おすすめ

転載: blog.csdn.net/hy592070616/article/details/131354852