BN（批归一化）层常用于在卷积层之后，对feature maps进行归一化，从而加速网络学习，也具有一定的正则化效果。训练时，BN需要学习一个minibatch数据的均值、方差，然后利用这些信息进行归一化，而在推理过程，通常为了加速，都会把BN融入到其上层卷积中，这样就将两步运算变成了一步，也就达到了加速目的。

1、卷积层和BN层

为了搞清楚如何融合卷积和BN，需要先搞懂卷积和BN的过程。

对于卷积层：

我们假设一个卷积核的权重为 $W$ ，卷积过程就是利用 $W$ 在其输入feature map中滑窗计算；假设 $W$ 中一个元素为 $w$ ，输入的feature map中的一个元素为 $x$ ，对于 $w$ 和 $x$ 的计算过程如下：

$y_{conv} = w\cdot x+b$

对于BN层：

需要计算一个minibatch中元素的均值方差，然后对于 $x$ 需要减去均值除以标准差，最后利用γ，β进行仿射变换，即可得到最终的BN输出，具体过程如下：

$\begin{aligned} \mu_{\mathcal{B}} & \leftarrow \frac{1}{m} \sum_{i=1}^{m} x_{i} \\ \sigma_{\mathcal{B}}^{2} & \leftarrow \frac{1}{m} \sum_{i=1}^{m}\left(x_{i}-\mu_{\mathcal{B}}\right)^{2} \\ \widehat{x}_{i} & \leftarrow \frac{x_{i}-\mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}} \\ y_{i} & \leftarrow \gamma \widehat{x}_{i}+\beta \equiv \mathrm{BN}_{\gamma, \beta}\left(x_{i}\right) \end{aligned}$

其中，第一个公式为求均值、第二个公式为求方差、第三个公式为归一化、第四个公式为仿射变换。

2、卷积层和BN层的融合

我们将卷积公式代入到BN的公式中，有：

$\mathrm{BN}_{\gamma, \beta}\left(x\right) = \gamma\frac{w\cdot x+b-\mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}}+\beta =\frac{\gamma\cdot w}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}}\cdot x+\frac{\gamma}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}} \cdot (b-\mu_{\mathcal{B}}) +\beta$

令：

$\widehat w=\frac{\gamma\cdot w}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}}$ , $\widehat b=\frac{\gamma}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}} \cdot (b-\mu_{\mathcal{B}}) +\beta$

则有：

$\mathrm{BN}_{\gamma, \beta}\left(x\right) =\widehat w \cdot x + \widehat b$

到这里，就完成了卷积层和BN层的融合。

卷积层与BN层的融合方式

1、卷积层和BN层

2、卷积层和BN层的融合

猜你喜欢