Gavin老师Transformer直播课感悟 - Transformer基于Bayesian思想拥抱数据的不确定性 - 代码天地

Gavin老师Transformer直播课感悟 - Transformer基于Bayesian思想拥抱数据的不确定性

其他 2021-12-10 20:26:32 阅读次数: 0

Transformer基于Encoder-Decoder的架构、Multi-head注意力机制、Dropout和残差网络等都是Bayesian神经网络的具体实现:

上图中左边的Multi-Head Attention是指"Encoder self-attention", 通过Encoder的states来计算queries, keys, values, 然后由前馈神经网络来进行处理。右边的"Masked Multi-Head Attention"是指"Decoder self-attention(masked)", 通过Decoder的states来计算queries, keys, values，结果输入到上一层的Multi-Head Attention，即"Decoder-encoder attention", 这里的queries通过decoder的states获得，而keys 和values 则通过encoder的states获得，之后由前馈神经网络来进行处理。

基于Transformer各种模型变种及实践也都是基于Bayesian思想指导下来应对数据的不确定性；混合使用各种类型的Embeddings来提供更好Prior信息其实是应用Bayesian思想来集成处理信息表达的不确定性。

猜你喜欢

转载自blog.csdn.net/m0_49380401/article/details/121433257

Gavin老师Transformer直播课感悟 - Transformer基于Bayesian思想拥抱数据的不确定性

Gavin老师Transformer直播课感悟 - 基于Transformer的端到端SimpleTOD实验分析

Gavin老师Transformer直播课感悟 - 基于Transformer端到端的任务对话系统解密

Gavin老师Transformer直播课感悟 - DIET:基于Transformer的轻量级多任务NLU系统（三）

Gavin老师Transformer直播课感悟 - DIET:基于Transformer的轻量级多任务NLU系统（二）

Gavin老师Transformer直播课感悟 - DIET:基于Transformer的轻量级多任务NLU系统（一）

Gavin老师Transformer直播课感悟 - 语言模型与Transformer XL剖析

Gavin老师Transformer直播课感悟 - Transformer的Task-oriented对话系统抗干扰能力实验

Gavin老师Transformer直播课感悟 - 基于Retrieval的Fine-grained架构的对话系统

Gavin老师Transformer直播课感悟 - 使用BERT对IMDB影视数据进行分析

Gavin老师Transformer直播课感悟 - BERT论文逐行解密：算法、数学、源码

Gavin老师Transformer直播课感悟 - BERT多任务Fine-tuning案例实战

Gavin老师Transformer直播课感悟 - 使用BERT进行NER案例实战

Gavin老师Transformer直播课感悟 - BERT分类任务案例实践及Fine-tuning

Gavin老师Transformer直播课感悟 - BERT预训练代码解析

Gavin老师Transformer直播课感悟 - BERT语言模型内部机制及预训练解析

Gavin老师Transformer直播课感悟 - GPT语言模型及预测实现机制

Gavin老师Transformer直播课感悟 - NLP信息提取中的CRF Modeling详解（二）

Gavin老师Transformer直播课感悟 - NLP信息提取中的CRF Modeling详解

Gavin老师Transformer直播课感悟 - NLP信息提取中的Generative versus Discriminative Models解密

Gavin老师Transformer直播课感悟 - 基于Transformer的Scalable对话状态管理模型BERT-DST详解

Gavin老师Transformer直播课感悟 - 基于Transformer的多轮对话机器人四要素解密

Gavin老师Transformer直播课感悟 - 使用Transformer构建具有抗干扰能力的Task-oriented对话系统

Gavin老师Transformer直播课感悟 - 基于Retrieval的具有Fine-grained架构的对话系统(二）

Gavin老师Transformer直播课感悟 - 信息提取CRF(Conditional Random Fields)解密系列之一

Gavin老师Transformer直播课感悟 - NLP信息提取中的Multivariate Prediction及Graphical Modeling解密系列

Gavin老师Transformer直播课感悟 - 信息提取CRF(Conditional Random Fields)解密系列之算法详解及实验分析

Gavin老师Transformer直播课感悟 - Rasa对话机器人项目实战之教育领域Education Bot项目FormValidationAction机制及源码逐行解密（七十六)

Gavin老师Transformer直播课感悟 - Rasa对话机器人项目实战之教育领域Education Bot项目Slots解析、Slot Validation Action剖析（七十四)

Gavin老师Transformer直播课感悟 - Rasa对话机器人项目实战之教育领域Education Bot项目Policies Data详解（七十二)

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)