tips 关于BatchNorm的一些坑 - 代码天地

tips 关于BatchNorm的一些坑

其他 2019-06-19 09:59:25 阅读次数: 0

最近在BatchNorm的问题上遇到了一些坑点，记录下来
BatchNorm在pytorch中是这么定义的
$y = \frac{x - \mathrm{E}[x]}{ \sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta$
它会针对输入对数据进行归一化，使得空间变得规整，但是这个层不是单纯的归一化，它是有参数 $\gamma$ 和 $\beta$ 需要学习的，而且，BN层的实际定义还有其他的参数：

torch.nn.BatchNorm2d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

里面的track_running_stats=True，是在训练的过程中，bn层会跟踪不同batch的均值和方差，而如果设置为False，则不会跟踪
但是，即使设置了不跟踪，train和eval模式下bn的表现还是会不一样
这是由于 $\gamma$ 和 $\beta$ 在训练的过程中具有梯度会发生变化，而在eval的过程中由于权值被锁住，所以不会发生变化，这就导致尽管没有track之前的batch，但train和eval的表现依然不同

总结下来，bn有两个部分
一个是 $\gamma$ 和 $\beta$ ，一个是track的权值，前者受train和eval模式控制，后者受track_running_stats参数控制(控制指能否改变)

因此，当使用同一组数据train和eval的时候，网络输出在初期会有比较大的差异，但到后面会逐渐趋于相同

另外dropout也会导致train和eval表现不同的问题

猜你喜欢

转载自blog.csdn.net/u012397583/article/details/85056324

tips 关于BatchNorm的一些坑

一些Tips

关于HTTP的一些TIPS

关于入门git的一些tips

一些好用的tips

【python】一些tips

keras 一些tips

silktest的一些tips

【keras】一些tips

JavaSE——关于集合类的一些tips

at定时任务的一些tips

优化shader程序的一些tips

c++设计的一些tips

敏捷落地的一些散乱的tips

android的一些学习tips

Kotlin开发中的一些Tips

ArcGIS for JavaScript开发的一些tips

关于origin画图的一些小tips

关于CSDN笔记的一些小tips

关于机房的小tips

关于硬件的tips

关于springBoot的tips

遇到的一些小的tips

css的一些小tips

TIPS

记录一下oracle培训的一些Tips

关于 SQL Server 数据库批量备份与还原的一些 Tips

Thinking in Java对象设计的一些tips

Ubuntu 常用命令和一些 tips

ref:JAVA代码审计的一些Tips(附脚本)

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)