Batch_Size对网络训练结果的影响

最近在跑一些网络时发现，训练完的网络在测试集上的效果总是会受Batch_Size 大小的影响。这种现象跟以往自己所想象的有些出入，于是出于好奇，各种搜博客，大致得出了自己想要的答案，现写一篇博客记录一下。

在训练过程中，一般有三种方式来从数据集中抽取数据，更新参数。一种是取所有的样本算出梯度（Full Batch Learning)，另一种是每次迭代只取一个样本进行更新，也即在线学习（Online Learning)，取Batch_Size = 1，还有一种是批梯度下降法（Mini-batches Learning）。对于取全数据集的方式来说，其确定的梯度下降方式代表样本总体，因此能最准确地朝着极值方向更新。但由于深度学习常用的数据集往往是海量的，所以采用全数据集下降的方式通常难以实现。而在线学习的方式则是每次训练只取一个样本，这样的训练方式往往会导致梯度更新的方向不那么准确。而批梯度下降就是前面所述两种方法的折中的方式，即每次迭代取一部分样本进行更新。我们下面讨论的就是使用批梯度下降方法设置Batch_size的情况。

那么Batch_Size究竟取多少最好呢？首先来说说Batch_Size对收敛速度的影响。一般来说，增大Batch_Size，所带来的训练时的标准差并不是线性增长的，比如训练一个样本的标准差为σ，那么取Batch_Size=n所带来的标准差为σ/√n，而非σ/n。因此，如果采用多个训练样本来算梯度的话，其计算量是线性增长的，但标准差并不能线性降低。所以Batch_Size越大，其收敛所需的迭代次数会减少，但每次迭代的计算时间也会增多，总体来看的话，耗费的总时间反而比使用少量样本来训练要多。但是，由于我们跑网络的时候可以用GPU并行计算，所以在一定范围内增大Batch_size，跑一次iteration的时间其实是差不多的，因此适当增加Batch_size大小，能让网络更快收敛。

但是也不是说Batch_size越大越好，我们知道网络最终收敛的时候并不总是在绝对最小值区域，很多时候是陷入了局部最小值，特别是我们常说的“鞍部”。这时候，如果Batch_size调得较小的话，其每次迭代下降的方向并不是最准确的，loss是在小范围内震荡下降的，这反而有利于跳出局部最小值，从而寻找下一个loss更低的区域。还有一种说法，何凯明大神的论文Rethinking ImageNet pre-training也提到过，如果你的网络中使用了BN层的话，而BN层的计算在batch size较小时受batch size参数影响较大，batch size越小，参数的统计信息越不可靠，也会影响最终的效果。因此调小Batch_size可以有效防止陷入局部最小值，但是由于BN层的存在也会影响最终的效果，同时Batch_size调得过小也容易导致网络不收敛。所以在实际跑代码的过程中你就会发现，对于某些任务比如图像分割，调Batch_size是个很玄学的过程。。。

参考博客：

1、训练神经网络时如何确定batch的大小？

2、谈谈深度学习中的 Batch_Size

Batch_Size对网络训练结果的影响

猜你喜欢