卷积层与BN层的融合方式

BN(批归一化)层常用于在卷积层之后,对feature maps进行归一化,从而加速网络学习,也具有一定的正则化效果。训练时,BN需要学习一个minibatch数据的均值、方差,然后利用这些信息进行归一化,而在推理过程,通常为了加速,都会把BN融入到其上层卷积中,这样就将两步运算变成了一步,也就达到了加速目的。

1、卷积层和BN层

为了搞清楚如何融合卷积和BN,需要先搞懂卷积和BN的过程。

对于卷积层:

我们假设一个卷积核的权重为W,卷积过程就是利用W在其输入feature map中滑窗计算;假设W中一个元素为w,输入的feature map中的一个元素为x,对于wx的计算过程如下:

y_{conv} = w\cdot x+b

对于BN层:

需要计算一个minibatch中元素的均值方差,然后对于x需要减去均值除以标准差,最后利用γ,β进行仿射变换,即可得到最终的BN输出,具体过程如下:

\begin{aligned} \mu_{\mathcal{B}} & \leftarrow \frac{1}{m} \sum_{i=1}^{m} x_{i} \\ \sigma_{\mathcal{B}}^{2} & \leftarrow \frac{1}{m} \sum_{i=1}^{m}\left(x_{i}-\mu_{\mathcal{B}}\right)^{2} \\ \widehat{x}_{i} & \leftarrow \frac{x_{i}-\mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}} \\ y_{i} & \leftarrow \gamma \widehat{x}_{i}+\beta \equiv \mathrm{BN}_{\gamma, \beta}\left(x_{i}\right) \end{aligned}

其中,第一个公式为求均值、第二个公式为求方差、第三个公式为归一化、第四个公式为仿射变换。

2、卷积层和BN层的融合

我们将卷积公式代入到BN的公式中,有:

\mathrm{BN}_{\gamma, \beta}\left(x\right) = \gamma\frac{w\cdot x+b-\mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}}+\beta =\frac{\gamma\cdot w}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}}\cdot x+\frac{\gamma}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}} \cdot (b-\mu_{\mathcal{B}}) +\beta

令:

\widehat w=\frac{\gamma\cdot w}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}}\widehat b=\frac{\gamma}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}} \cdot (b-\mu_{\mathcal{B}}) +\beta

则有:

\mathrm{BN}_{\gamma, \beta}\left(x\right) =\widehat w \cdot x + \widehat b

到这里,就完成了卷积层和BN层的融合。

猜你喜欢

转载自blog.csdn.net/oYeZhou/article/details/112802348
今日推荐