Transformer解析与tensorflow代码解读

其他 2019-06-16 19:08:03 阅读次数: 0

本文是针对谷歌Transformer模型的解读，根据我自己的理解顺序记录的。

另外，针对Kyubyong实现的tensorflow代码进行解读，代码地址https://github.com/Kyubyong/transformer

Layer Normalization

首先是Layer Normalization部分，和Batch Normalization有点不一样，BN能够让模型收敛的更快，但是BN的缺点也比较明显。

BN的缺点：

　　1，BN特别依赖Batch Size；当Batch size很小的适合，BN的效果就非常不理想了。在很多情况下，Batch size大不了，因为你GPU的显存不够。所以，通常会有其他比较麻烦的手段去解决这个问题，比如MegDet的CGBN等；

　　2，BN对处理序列化数据的网络比如RNN是不太适用的；So，BN的应用领域减少了一半。

　　3，BN只在训练的时候用，inference的时候不会用到，因为inference的输入不是批量输入。这也不一定是BN的缺点，但这是BN的特点。

BN是在batch的方向上计算均值方差，而LN是在每一条数据维度的方向上计算均值方差，换句话说，LN的操作类似于将BN做了一个“转置”，对同一层网络的输出做一个标准化。下图比较清晰：

猜你喜欢

转载自www.cnblogs.com/zhouxiaosong/p/11032431.html

Transformer解析与tensorflow代码解读

Transformer(三) -- 相关代码解读

Transformer原理及代码实现解读

Transformer 代码详细解析

【神经网络】(21) Vision Transformer 代码复现，网络解析，附TensorFlow完整代码

【代码笔记】Transformer代码详细解读

Swin_Transformer_minivit代码解读

bert代码解读2之模型transformer的解读

Transformer解读

The Annotated Transformer(解读Transformer)

Tensorflow代码解析（一）

TensorFlow源代码解析

Transformer t5代码解读3

transformer t5代码解读2

ChatGPT transformer 5篇经典论文以及代码和解读

Transformer框架时间序列模型Informer内容与代码解读

【ViT详解】Vision Transformer网络结构及代码解读

Vision Transformer(ViT)论文解读与代码实践(Pytorch)

tensorflow学习（9）风格迁移代码解读

CTC tensorflow example 代码解析

tensorflow图像修复代码解析

Tensorflow-MNIST代码解析

transformer模型解读

Transformer源码解读

Transformer(一) -- 论文解读

【NLP】Transformer模型解读

Transformer模型解读 -- 转载

Medical transformer源码解读

Swin Transformer解读

【Tensorflow_DL_Note9】Tensorflow源代码解读1

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)