batch size设置技巧 - 代码天地

batch size设置技巧

编程语言 2018-10-14 08:01:17 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/kl1411/article/details/82983971

显存占用不是和batch size简单成正比

增大batch size能减缓梯度震荡，需要更少的迭代优化次数，收敛的更快，但是每次迭代耗时更长。
https://zhuanlan.zhihu.com/p/31558973

要想收敛到同一个最优点，使用整个样本集时，虽然迭代次数少，但是每次迭代的时间长，耗费的总时间是大于使用少量样本多次迭代的情况的。
实际上，工程上在使用GPU训练时，跑一个样本花的时间与跑几十个样本甚至几百个样本的时间是一样的！当然得益于GPU里面超多的核，超强的并行计算能力啦。因此，在工程实际中，从收敛速度的角度来说，小批量的样本集是最优的，也就是我们所说的mini-batch。这时的batch size往往从几十到几百不等，但一般不会超过几千。

样本量少的时候会带来很大的方差，而这个大方差恰好会导致我们在梯度下降到很差的局部最优点（只是微微凸下去的最优点）和鞍点的时候不稳定，一不小心就因为一个大噪声的到来导致炸出了局部最优点。
与之相反的，当样本量很多时，方差很小，对梯度的估计要准确和稳定的多，因此反而在差劲的局部最优点和鞍点时反而容易自信的呆着不走了，从而导致神经网络收敛到很差的点上，跟出了bug一样的差劲。

batch的size设置的不能太大也不能太小，因此实际工程中最常用的就是mini-batch，一般size设置为几十或者几百。
对于二阶优化算法，减小batch换来的收敛速度提升远不如引入大量噪声导致的性能下降，因此在使用二阶优化算法时，往往要采用大batch哦。此时往往batch设置成几千甚至一两万才能发挥出最佳性能。
GPU对2的幂次的batch可以发挥更佳的性能，因此设置成16、32、64、128...时往往要比设置为整10、整100的倍数时表现更优
https://zhuanlan.zhihu.com/p/27763696

猜你喜欢

转载自blog.csdn.net/kl1411/article/details/82983971

batch size设置技巧

batch size设置技巧谈谈batchsize参数

Batch_size如何设置

batch 、batch size、epoch、 iteration

深度学习实战：Batch Size 设置

深度学习中的batch_size设置

caffe模型训练batch_size设置

batch_size的影响

batch_size的理解

batch_size的含义

Epoch和Batch Size

Batch_size的选择

Batch Size理解

epoch,iteration,batch,batch_size

batch、batch_size、epoch、iteration简介

BATCH_SIZE大小设置对训练耗时的影响

深度学习一点通：如何设置batch size？

深度学习中，什么是batch-size？如何设置？

batch.size()[0]与batch.size()[1]的意思

如何选取Batch Size大小

epoch、 iteration和batch size

epoch， batch_size，iteration

Epoch、Batch Size和迭代

Epoch、Batch Size和Iterations

batch size、iteration、epoch的含义

深度学习的batch_size

batch_size与梯度下降

batch_size、iterations、epoch

epoch、batch size、literation关系

深度学习 batch_size

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)