【深度学习】batch normalization

版权声明:转载请注明 https://blog.csdn.net/u013166817/article/details/84876572

参考:https://www.cnblogs.com/guoyaohua/p/8724433.html

引入原因:深度网络训练过程中,每一层的参数都会不断变化,很可能导致每一层的输出(即对下一层的输入)的分布发生变化,因此导致模型收敛变慢,(本质原因:输出逐渐向左右两端移动,导致曲线平缓,比如sigmoid,从而梯度消失问题产生,因此收敛越来越慢)。

解决方法:BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。具体就是将上一层的输出(即本层的输入)转换成均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落入对输入比较敏感的区域,以此避免梯度消失问题。

优点:①不仅仅极大提升了训练速度,收敛过程大大加快;②还能增加分类效果,一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式,所以不用Dropout也能达到相当的效果;③另外调参过程也简单多了,对于初始化要求没那么高,而且可以使用大的学习率等。

注意:normalization的均值方差只基于当前的minibatch,并且normalization对输入层的每一维单独计算均值方差。

猜你喜欢

转载自blog.csdn.net/u013166817/article/details/84876572