BERT(三)——BERT 改进

先都列出来,有时间再详细整理

 

BERT-Base

BERT-Large

BERT-wwm

SpanBert

SpanBert:对 Bert 预训练的一次深度探索

DistillBERT

XLNET

飞跃芝麻街:XLNet 详解

最通俗易懂的XLNET详解

①AR AE方式结合,通过随机取一句话排列的一种,然后将末尾一定量的词给“遮掩”(和 BERT 里的直接替换 “[MASK]” 有些不同)掉,最后用 AR 的方式来按照这种排列方式依此预测被“遮掩”掉的词

②在 BERT 这样的位置信息+内容信息输入 Self-Attention (自注意力) 的流(Stream)之外,作者们还增加了另一个只有位置信息作为 Self-Attention 中 query 输入的流

③  部分预测

④ 段循环机制 :前一段计算完后,将它计算出的隐状态(hidden states)都保存下来,放入一个 Memory 中去,之后在当前分段计算时,将之前存下来的隐状态和当前段的隐状态拼起来作为 Attention 机制的 K 和 V,从而获得更长的上下文信息

⑤相对位置编码

扫描二维码关注公众号,回复: 12364334 查看本文章

⑥ 更多数据

RoBERTa

RoBERTa:高级丹药炼制记录

改进:更大量数据,更多step,更大Batch,动态掩码,Byte Pair Encoding (BPE) 词典更大,去掉了句子预测

 

ALBERT

ELECTRA

ERNIE

ERNIE 2.0:芝麻街 2.0?

ZEN

T5   

Transfer Text-to-Text Transformer

T5 模型:NLP Text-to-Text 预训练模型超大规模探索

整个 NLP 预训练模型领域提供了一个通用框架,把所有任务都转化成一种形式。 

将所有 NLP 任务都转化成 Text-to-Text (文本到文本)任务

中文预训练模型

参考链接:

https://blog.csdn.net/triplemeng/article/details/104047803

https://www.zhihu.com/people/andy_yangz/posts

猜你喜欢

转载自blog.csdn.net/katrina1rani/article/details/111709367