FRN+TLU，小batch size训练的福音

其他 2020-03-23 18:31:17 阅读次数: 0

论文地址：https://arxiv.org/pdf/1911.09737.pdf

笔记内容：

论文总览
论文图表与内容
Normalization各种方法回顾（BN,GN,LN,IN）

论文总览：

1、解决的问题：BN（Batch Normalization）在mini-batch尺寸太小的时候会降低训练效果，GN（Group Normalization）,Batch Renormalization都在解决这些问题，但是达不到BN在大batch上的表现，或在小batch上表现不佳

2、FRN表现：FRN结合归一化和激活函数的方式，替代其他的归一化与激活函数的结合，在各个batch size上的表现都更好

3、改进的方向：FRN未来会在NLP领域继续探索

论文图表与内容：

FRN不依赖于batch的设置，在small batch size 和large batch size上表现都很好

（1）FRN和其他归一化方法一样，消除了在FRN filter的权重和预激活的尺度效应

（2）FRN主要的不同在于没有减去均值（均值在batch上不独立）

（3）FRN是基于每个channel上做的，使得所有的滤波器在最后的模型上有相等重要性

（4）FRN是在空间范围上的全局归一化

v^2是第b个batch point上的第c个channel上w*h个点的均方差，FRN对每个样例的每个channel单独进行归一化，消除了对batch的依赖

TLU是为了解决FRN没有均值中心而出现的任意偏差，t是可学习的阈值

在全连接层或N=1的激活层，FRN会变为图中的情况，当epsilon值较小时，归一化相当于一个符号函数（sign function），这时候梯度几乎为0，严重影响模型训练；当值较大时，曲线变得更圆滑，此时的梯度利于模型学习,此时epsilon变为可学习参数是很重要的

FRN的tf实现

FRN的表现：

Normalization各种方法回顾

参考文章：https://zhuanlan.zhihu.com/p/69659844

BN：

把第1个样本的第1个通道，加上第2个样本第1个通道 ...... 加上第 N 个样本第1个通道，求平均，得到通道 1 的均值（注意是除以 N×H×W 而不是单纯除以 N，最后得到的是一个代表这个 batch 第1个通道平均值的数字，而不是一个 H×W 的矩阵）。求通道 1 的方差也是同理。对所有通道都施加一遍这个操作，就得到了所有通道的均值和方差。具体公式为：

LN：

IN：

GN：

发布了19 篇原创文章 · 获赞 13 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_39958313/article/details/104371068

FRN+TLU，小batch size训练的福音

caffe模型训练batch_size设置

Batch_Size对网络训练结果的影响

Batch Size大小对训练过程的影响

Batch size对神经网络训练的影响

神经网络训练中-Epoch、Batch Size和迭代

batch_size对于卷积神经网络训练的影响

怎么选取训练神经网络时的Batch size?

模型训练-Batch size大小，优化和泛化

训练神经网络时如何确定batch size？

选取训练神经网络时的Batch size

BATCH_SIZE大小设置对训练耗时的影响

batch size和模型宽度对训练结果的影响

【机器学习】浅谈 Batch Size 对训练神经网络的影响

机器学习0007 每次应该训练多少数据batch_size应该设成多少

神经网络训练中，Epoch、Batch Size和迭代傻傻分不清?

神经网络训练中Epoch、batch_size、iterator的关系

Caffe 多GPU训练问题，以及batch_size 选择的问题

神经网络训练中,傻傻分不清Epoch、Batch Size和迭代

神经网络训练中，Epoch、Batch Size和迭代傻傻分不清

Tensorflow基础知识---训练样本的batch_size数据的准备

如何理解深度学习中分布式训练中large batch size与learning rate的关系

深度学习（9）神经网络训练中Epoch、Batch Size和iteration

人工智能系列（一）batch size对神经网络训练的影响

关于yolov5训练时参数workers和batch-size的理解

深度学习模型训练中epoch、batch size和iterations之间的含义与区别

batch 、batch size、epoch、 iteration

LSTM的训练和测试长度(batch_size)不一样报错的解决方案

训练神经网络模型过程中batch_size，steps_per_epoch，epochs意义

从正负样本解耦看对比学习为何需要large batch size训练Ddcoupled Contrastive learning (DCT)

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

周排行

《Python 编程-从入门到实践》11-1~11-3

关于Numpy+TensorFlow+PyTorch构造NN的总结

【原创达人】制作WINPE启动盘心得

英文图片文字识别（提取）

2022cma看片网站给一个你懂的

二叉搜索树的实现（BST）（插入+删除+查找+各种遍历+高度）

搬家通知博文地址(将博客搬到CSDN)

asfd

解决错误：MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk

如何注册微信个人小程序

每日归档

更多

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)