NLP_BERT模型的介绍

1.BERT模型的介绍

BERT模型(Bidirectional Encoder Representations from Transformers)——基于Transformer的双向编码表示法:

模型的比较
BERT模型的根基就是Transformer，来自Google团队17年的文章Attention is all you need。双向的意思表示它在处理一个词的时候，能考虑到该词前面和后面单词的信息，从而获取上下文的语义。（对于Transformer的参考资料：attention is all you need模型笔记，Transformer模型详解)

Model	获取长距离语义信息程度	能否抓取左右上下文语义	能否完成并行计算
Word2Vec	1	Yes	Yes
单向LSTM	2	No	No
ELMo	2	Yes	No
GPT	3	No	Yes
BERT	3	Yes	Yes

ELMo采用的是双向的LSTM的架构，因此能够抓取到左右上下文的语义。
由于GPT和BERT都采用Transformer，所有它们都是能够完成并行计算，但是由于GPT采用的是单向的，导致了每个token只能关注左侧的语境，在文献中被称为了“Transformer解码器”，而BERT采用了双向的双向的自注意机制，所以被称为了“Transformer编码器”。

2、BERT模型核心点

2.1 BERT的架构

BERT的模型架构基于了Transformer，实现了多层双向的Transformer编码器。文中有两个模型，一个是1.1亿参数的base模型，一个是3.4亿参数的large模型。里面所设置的参数如下：

Model	Transformer层数(L)	Hidden units(H)	self-attention heads(A)	总参数
BERT(base)	12	768	12	1.1亿
BERT(large)	24	1024	16	3.4亿

其中base模型的参数和OpenAI的GPT的参数一致。目的就是为了同GPT的效果进行一个比较。
在这里插入图片描述

2.2 BERT的输入表征

下图表示了BERT的输入表征

在这里插入图片描述

各部分的作用：

在这里插入图片描述

2.3 BERT中最核心的部分

（1）Masked Language Model(MLM)
为了实现深度的双向表示，使得双向的作用让每个单词能够在多层上下文中间接的看到自己。文中就采用了一种简单的策略，也就是MLM。
MLM：随机屏蔽掉部分输入token，然后再去预测这些被屏蔽掉的token。
这里实现的时候有两个缺点
缺点1：预训练与微调之间的不匹配，因为微调期间是没有看到[Mask]token。

Solution：不是总用实际的[Mask]token替换被“masked”的词汇，而是采用训练数据生成器随机去选择15%的token。

例子：句子= my dog is hairy，选择的token是hairy。执行的流程为：
在这里插入图片描述
Transformer不知道它将被要求预测哪些单词或哪些单词已被随机单词替换，因此它被迫保持每个输入词块的分布式语境表征。此外，因为随机替换只发生在所有词块的1.5％(即15％的10％)，这似乎不会损害模型的语言理解能力。
缺点2：每个batch只预测了15%的token，这说明了模型可能需要更多的预训练步骤才能收敛。
（2）Next Sentence Prediction
现在从句子的角度来考虑问题，预训练了一个二值化下一句预测任务，该任务可以从任何单语语料库中轻松生成。具体来说，选择句子A和B作为预训练样本：A的下一句有50%的可能是B，另外50%的可能是来自语料库的。
例子：