BERT：Bidirectional Encoder Representations from Transformers - 代码天地

BERT：Bidirectional Encoder Representations from Transformers

其他 2019-01-26 03:23:21 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u014665013/article/details/85037671

本文是在transformer（attention is all you need）的基础上的，可参考博主之前博客：paper:Attention Is All You Need
之前已经有很多blog介绍了，这里引用一下，剩下的主要记录下自己的认识和体会

模型分析：

模型代码解读：

关于BERT其他相关资料：

其他资料汇总

paper 作者的一些issue

paperauthor

questions:

Why 15% is masked rather all of the word like word2wec?
when fintune,why get_pooled_output layer just use the first tokens’ output?

tricks:

initilizer: tf.truncated_normal_initializer(stddev=initializer_range)
embedding size 一般设置成了hidden_size
loss = loss+1e-5

不同：

self attention之后添加projection ，也就是transformer：multi head attention + add&norm + ffn layer + add&norm，而在bert中变成了：multi head attention + projection layer + add&norm + ffn layer + add&norm
layer norm的结构稍有变化
ffn layer中的激活函数改为gelu

model整体流程图：
在这里插入图片描述
详细流程：

word_embedding+sentense_mask_embedding+position_embedding
layer_norm_and_dropout
get mask attention
multi head self attention
- Q、K、V dense layer
- self attention = $softmax(\frac {QK}{\sqrt{d_{model}}})V$ 中间包括：self attention + mask attention和dropout
- projection + dropout
- layer norm+residual
- ffn layer :intermediate (dense layer(激活函数gelu))+output(dense layer)+dropout
- layer norm+residual 这里得到sequence output
取sequence output中每个case的第一个输出向量（CLS对应的向量），并经过dense layer(激活函数为tanh)，得到pooled_output
从sequence output中取出mask的位置的vector，过dense layer，激活函数为gelu，并对结果进行layer_norm，得到结果mask output
matmul(mask output,embedding table)+bias，后交叉熵损失函数mask_loss
对pooled_output过dense layer，然后交叉熵函数得到sequence_loss
最终的loss=mask_loss+sequence_loss

猜你喜欢

转载自blog.csdn.net/u014665013/article/details/85037671

BERT(Bidirectional Encoder Representations from Transformers)理解

BERT-Bidirectional Encoder Representations from Transformers

BERT：Bidirectional Encoder Representations from Transformers

如何应用 BERT ：Bidirectional Encoder Representations from Transformers

【NLP-15】BERT（Bidirectional Encoder Representations from Transformers）

Bert系列：BERT（Bidirectional Encoder Representations from Transformers）原理以及hugging face介绍

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：BERT的结构

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：输入表示

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：MLM（Masked Language Model）

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：基础知识

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：微调训练-[单句标注]

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：微调训练-[文本问答]

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：微调训练-[单句分类]

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：NSP任务

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：模型总结与注意事项

深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：微调训练-[句对分类]

论文阅读 BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer

自然语言处理: 第十一章BERT(Bidirectional Encoder Representation from Transformers)

LXMERT: Learning Cross-Modality Encoder Representations from Transformers 论文笔记

BERT: Pretraining of Deep Bidirectional Transformers fo

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT论文解读:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

【自然语言处理 | BERT】BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding论文讲解

李沐论文精读：BERT 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

Devlin2018Google_BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文笔记

【论文笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文笔记：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文译文——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)