归一化处理、ReLU函数的作用

        在上篇的ResNet详解文章中,我们会发现在特征矩阵每一次经过一个卷积层,我们都需要进行一次归一化处理(Batch Normalization,简称bn)和ReLU(Rectified Linear Unit)函数。那么具体为什么我们需要这两种函数的处理呢?引发了我的思考。

1、ResNet为什么需要归一化处理 

       归一化处理有助于ResNet缓解梯度消失问题,提高网络训练的稳定性和收敛速度。通过归一化处理,ResNet能够训练非常深的网络。

        (1)缓解梯度消失问题:在深度神经网络中,随着网络层数的增加,梯度可能会逐渐减小并消失,导致网络难以优化。归一化处理有助于缓解梯度消失问题,使得梯度能够更好地传播。通过对输入进行归一化,即将输入特征的均值减去,再除以标准差,可以使数据的分布更加稳定,避免梯度在网络中迅速减小。

        (2)提高网络训练的稳定性:归一化处理有助于提高网络训练的稳定性。通过将每个批次的输入进行归一化,归一化处理使得输入数据的尺度一致,减小了不同批次之间的数据分布差异。这有助于防止网络对输入数据中的微小变化过度敏感,提高了网络的鲁棒性和泛化能力。

        (3)加速网络收敛速度:归一化处理可以加速网络的收敛速度。通过缓解梯度消失问题和提高网络训练的稳定性,归一化处理使得网络能够更快地学习到有效的特征表示。这有助于减少训练时间和资源消耗,提高网络训练的效率。

2、ReLU函数的作用

        ReLU函数的作用包括引入非线性激活、激活神经元、解决梯度消失问题以及提供稀疏性和稳定性。被广泛应用于各种神经网络模型。

  1. 非线性激活:ReLU函数是一种非线性函数,可以引入非线性变换,使神经网络能够学习和表示更加复杂的函数关系。相比于线性激活函数(如恒等映射),ReLU的非线性特性可以提高网络的表达能力,更好地拟合非线性问题。

  2. 激活神经元:ReLU函数将小于零的输入值设为零,并保持大于等于零的值不变。这种激活方式使得ReLU能够对输入信号进行阈值处理,激活那些具有较大正值的神经元,而抑制那些负值较大的神经元。这有助于稀疏激活神经元,提高网络的稀疏性和表示能力。

  3. 解决梯度消失问题:ReLU函数在正区间(大于零的输入值)上具有线性特性,不会引起梯度消失问题。相比于传统的激活函数(如sigmoid和tanh函数),ReLU的线性特性可以更好地传播梯度,避免梯度在深度网络中迅速衰减,从而有助于提高网络的训练效率和收敛速度。

  4. 稀疏性和稳定性:ReLU函数的零区间可以导致神经元的稀疏性。由于ReLU对负输入值的输出为零,可以使得网络中的神经元自动学习到更具有鉴别性的特征。此外,ReLU函数的计算简单且无需额外的参数,使得网络的计算更加高效和稳定。

猜你喜欢

转载自blog.csdn.net/m0_56190554/article/details/130964715