Switchable Normalization

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012193416/article/details/88591997

Switchable Normalization

BN 会对训练过程产生更重要的影响:它使优化解空间更加平滑了,这种平滑使梯度更具有可预测性和稳定性,从而使训练过程更快。

Minibatch 对 BN的影响最大,因为BN的均值和方差是在minibatch上统计的,minibatch越小,这些统计量的估计会带来更大的噪声,对模型训练产生的过大正则化,从而影响模型的泛化能力。而LN,IN,GN在计算量时虽然和minibatch无关,却由于缺乏正则化能力在大的minibatch时无法达到BN的精度(与BN不同,这些技术单独使用,往往会导致较明显的过拟合现象)。SN通过学习不同归一化方法的相互作用,克服上述问题。

Minibatch越小,SN中BN的权重系数越小,IN和LN的权重系数则越大

Minibatch越大,SN中BN的权重系数越大,IN和LN的权重系数越小

(x,y)x是GPU的数目,y是每个GPU的样本数

 

BN在计算量过程中会引入随机噪声,这些随机噪声为模型带来正则化作用,该作用的强度与minibatch size成反比,直观的说,由BN的均值和方差分别产生的正则化对模型训练会产生不同的影响。计算样本均值引入的噪声要弱于估计样本方差引入的噪声(噪声越大,正则化作用越强)。SN通过分别调节他们的权重,来增加或者减少模型的正则化作用,SN的自主选择过程旨在抑制噪声。

 

BN的作用随着minibatch size的减少会有明显的下降

BN会随着batch size的提高而提高,但是BN大了引入噪声小了,正则化作用弱了

怀疑网络结构batch_size小了,正则化作用明显,模型过拟合

 

猜你喜欢

转载自blog.csdn.net/u012193416/article/details/88591997