BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文研读 - 代码天地

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文研读

其他 2020-10-28 10:07:56 阅读次数: 0

主要结构仍是 Transformer
Input:
a. WordPiece embeddings
b. learned positional embeddings, up to 512 tokens。
c. 增加了一个特殊的 token: [CLS], 用于分类任务。这个token的deep feature用于分类任务。
d. Sentence pairs, 两个句子合成一句，并用一个特殊的 token: [SEP]隔开。同时增加两个可训练的sentence embedding A 和 B，分别与第一句和第二局的每个tokens embedding concate在一起。
e. 对于单句，sentence embedding A 也会使用，与所有token embedding concate。
预训练的方式，最大的区别
a. 不是简单的left-to-right或者right-to-left的语言模型训练方式。而是mask部分tiokens，然后预测这部分的tokens，因此可以利用全句信息。其实也可以认为是学习句子的context representation，比起LM这种预训练更好。
具体：15%随机mask。同时其中80%替换为一个特殊的 token: [MASK]， 10%替换为随机的tokens，10%不变。因为训练时只会预测15%的tokens，相比于LM训练速度下降。
b. 句子预测，Sentence pairs，判断这两个句子是不是相关的。
预训练细节：
sentence可能是部分文本，不仅仅是一句。因为positional embeddings限制，input长度小于512。
激活函数用的是gelu。
base model， 4 cloud tpus 训练4天。large model， 16 cloud tpus 训练4天。

利用Masked LM和Next Sentence Prediction，相比于LM，直观上可以学习更好的句子的context representation。利用大规模数据，选择合适的非监督任务进行预训练，才能更好的进行transfer。

猜你喜欢

转载自blog.csdn.net/yanyiting666/article/details/94480709

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文研读

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT论文解读:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

【自然语言处理 | BERT】BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding论文讲解

李沐论文精读：BERT 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文笔记

【论文笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文笔记：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文译文——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

【论文解读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文阅读：BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding

【论文阅读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

【NLP经典论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Devlin2018Google_BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

【笔记记录】 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

【论文笔记】BERT : Pre-training of Deep Bidirectional Transformers forLanguage Understanding

【论文及代码详解】BEIT: BERT Pre-Training of Image Transformers

【论文笔记】BEIT:BERT PRE-TRAINING OF IMAGE TRANSFORMERS

BEiT: BERT Pre-Training of Image Transformers 论文笔记

BERT: Pretraining of Deep Bidirectional Transformers fo

论文阅读总结：UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)

论文笔记 --《Unified Language Model Pre-training for Natural Language Understanding a

【论文笔记】BLIP: Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding and

【论文笔记】GPT-1：Improving Language Understanding by Generative Pre-Training

ChatGPT1论文解读《Improving Language Understanding by Generative Pre-Training》

【NLP经典论文精读】Improving Language Understanding by Generative Pre-Training

Re45：读论文 GPT-1 Improving Language Understanding by Generative Pre-Training

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：MLM（Masked Language Model）

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Genera

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)