先都列出来,有时间再详细整理
BERT-Base
BERT-Large
BERT-wwm
SpanBert
DistillBERT
XLNET
①AR AE方式结合,通过随机取一句话排列的一种,然后将末尾一定量的词给“遮掩”(和 BERT 里的直接替换 “[MASK]” 有些不同)掉,最后用 AR 的方式来按照这种排列方式依此预测被“遮掩”掉的词。
②在 BERT 这样的位置信息+内容信息输入 Self-Attention (自注意力) 的流(Stream)之外,作者们还增加了另一个只有位置信息作为 Self-Attention 中 query 输入的流
③ 部分预测
④ 段循环机制 :前一段计算完后,将它计算出的隐状态(hidden states)都保存下来,放入一个 Memory 中去,之后在当前分段计算时,将之前存下来的隐状态和当前段的隐状态拼起来作为 Attention 机制的 K 和 V,从而获得更长的上下文信息。
⑤相对位置编码
扫描二维码关注公众号,回复:
12364334 查看本文章
⑥ 更多数据
RoBERTa
改进:更大量数据,更多step,更大Batch,动态掩码,Byte Pair Encoding (BPE) 词典更大,去掉了句子预测
ALBERT
ELECTRA
ERNIE
ZEN
T5
Transfer Text-to-Text Transformer
T5 模型:NLP Text-to-Text 预训练模型超大规模探索
给整个 NLP 预训练模型领域提供了一个通用框架,把所有任务都转化成一种形式。
将所有 NLP 任务都转化成 Text-to-Text (文本到文本)任务。
中文预训练模型
参考链接: