BERT(Bidirectional Encoder Representations from Transformers)理解

一、BERT是如何进行预训练 pre-training的?

BERT 用了两个步骤,试图去正确地训练模型的参数。

1)第一个步骤是把一篇文章中,15% 的词汇遮盖,让模型根据上下文全向地预测被遮盖的词。假如有 1 万篇文章,每篇文章平均有 100 个词汇,随机遮盖 15% 的词汇,模型的任务是正确地预测这 15 万个被遮盖的词汇。通过全向预测被遮盖住的词汇,来初步训练 Transformer 模型的参数。

2)然后,用第二个步骤继续训练模型的参数。譬如从上述 1 万篇文章中,挑选 20 万对语句,总共 40 万条语句。挑选语句对的时候,其中 2*10 万对语句,是连续的两条上下文语句,另外 2*10 万对语句,不是连续的语句。然后让 Transformer 模型来识别这 20 万对语句,哪些是连续的,哪些不连续。

这两步训练合在一起,称为预训练 pre-training,训练结束后的Transformer模型,包括它的参数,就是论文期待的通用的语言表征模型。

猜你喜欢

转载自www.cnblogs.com/gczr/p/10143604.html