Batch Normalization笔记

Batch Normalization的来源

简化版的Convolutional Layer
梯度消失的问题
Normalization的变体

最基本的数据规范化
批规范化

加了Batch Normalization的卷积层

Batch Normalization放在哪里
前向传播算法
反向传播算法

$d\gamma^l$ 和$d\beta^l$ 的推导
$dX^l$ 的推导
卷积部分的计算
其他

Batch Normalization的来源

简化版的Convolutional Layer

$X^{(l+1)}=f(Y^l)=f(3d\_conv(X^l,F)+b)$
$f$ 是激活函数，一般是 $Leaky$ 或者 $ReLU$ ，早年比较火的 $sigmoid(x)=1/(1 - e^{-x})$ 函数因为计算量大（要计算 $e^{-x}$ ），效果不好（容易出现梯度消失）已经基本不用。

但对于 $y=sigmoid(x)$ ， $y$ 的均值为0，如果不考虑计算量，将来可以研究研究。
为了保持书写习惯，下文用 $W$ 表示卷积核。

下面分析中假设卷积核数量为1， $X^l$ 的深度为1,3d卷积 $3d\_conv$ 换成 2d卷积 $conv2$ 。

梯度消失的问题

在神经网络很深的情况下，数据向前传播的时候经常容易进入饱和区（不过感觉用 $Leaky$ 或者 $ReLU$ 作为激活函数这个问题不大），对数据进行规范化，使其满足（至少看起来满足）高斯分布，可以避免进入饱和区而出现梯度消失的问题。

Normalization的变体

最基本的数据规范化

对输入进行规范化。若 $X$ 是 $N×N$ 的矩阵。
$\mu = \frac{1}{N^2}\sum_{i=0}^{N-1}\sum_{j=0}^{N-1}x_{i,j}$

$\quad\quad\sigma^2= \frac{1}{N^2}\sum_{i=0}^{N-1}\sum_{j=0}^{N-1}(x_{i,j}-\mu)^2$

$\quad\quad\quad\quad\quad\quad\sigma=\sqrt {\sigma^2}= \frac{1}{N}\sqrt {\sum_{i=0}^{N-1}\sum_{j=0}^{N-1}(x_{i,j}-\mu)^2}$

$\hat{X}=\begin{cases}\frac{X-\mu}{\sigma} \quad\sigma\neq0\\X\quad\quad\sigma=0\end{cases}\quad$

批规范化

一小批（Batch）的数据平均化的规范化。吸取了mini batch-SGD的思路，为的应该是增加数据的样本空间，记Batch数为 $m$ ，Batch Normalization的均值为 $\mu'$
$\overline \mu=\frac{1}{m}\sum_{i\in m}\mu_i,\quad\quad\overline \sigma=\frac{1}{m}\sum_{i\in m}\sigma_i$
$\hat{X}=\begin{cases}\frac{X-\overline\mu}{\overline\sigma} \quad\overline\sigma\neq0\\X\quad\quad\overline\sigma=0\end{cases}\quad$

问题来了，如果 $\overline\sigma=0$ ，那说明全部的数据都是 $\overline\mu=0$ ，这样的数据我们训练它有啥意义？这个且排除掉，得到

$\hat X=\frac{X-\overline\mu}{\overline \sigma}$

有论文说 $m$ 应该取32。64，128，256等数也应该试试看。也有论文说 $m$ 过大的话效果可能会较差。

在Yolo中，默认的输入尺寸是416×416（浮点数），一级中最多有256个3×3的卷积核，一个卷积结果需要的内存存储量为416×416×256÷1024÷1024=42.25MB，如果 $m=32$ ， $\hat X$ 的内存需求为1352MB≈1.32GB。

但深度网络中，不见得上面计算的 $\hat X$ 未必是我们想要的，所以要有机会对其进行修正。
$Y=\gamma \hat X+\beta\quad$
初始值 $\gamma_0=1, \beta_0=0$

加了Batch Normalization的卷积层

Batch Normalization放在哪里

放在卷积之后，激活之前，即从原来的
$Y^l=conv2(X^l,W)+b$
变成
$Y^l=Y=\gamma \hat Z^l+\beta =\gamma^l \left(\frac {conv2(X^l,W)-\overline\mu^l}{\overline\sigma^l}\right)+\beta^l$

这里 $b$ 被忽略，合并到 $\beta$ 里面了。且暂不考虑 $\overline\sigma=0$ 的情况。

增加一个变量 $Z^l$ ， $Z^l=conv2(X^l,W)$ 。

前向传播算法

为简单考虑， $X^l$ 的通道数为1，唯一卷积核为 $W^l$ 。卷积层的输出
$X^{l+1}=f(Y^l)=f\left (\gamma^l \left(\frac {conv2(X^l,W^l)-\overline\mu^l}{\overline\sigma^l}\right)+\beta^l \right )$

反向传播算法

已知 $dX^{l+1}$ ，也就是 $X^{l+1}$ 的导数，求以下值：

$dX^l$ ，为了往后面一层继续传播，使 $x_{i,j}\gets x_{i,j}-\eta·dx_{i,j}$
$dW^l$ ，为了更新本层的卷积参数，使 $w_{i,j}\gets w_{i,j}-\eta·dw_{i,j}$
$d\gamma^l$ ， $d\beta^l$ 为了更新本层的规范化参数

$dX^{l+1}$ 准确讲应该是 $\frac{\Delta E}{\Delta X^{l+1}}$ ，而 $dX^l=\frac{\Delta E}{\Delta X^l}=\frac{\Delta E}{\Delta X^{l+1}}·\frac{\Delta X^{l+1}}{\Delta X^l}$

因此， $dY^l=dX^{l+1}·f'(Y)$ 。

我们从 $dY^l$ 开始。

$d\gamma^l$ 和 $d\beta^l$ 的推导

$d\gamma^l=dY^l·\frac{\Delta Y^l}{\Delta \gamma^l}=dY^l·\hat X^l$

在实际系统中， $\hat X$ , $dY^l$ 为 $N×N$ 矩阵， $\gamma$ 和 $\beta$ 为浮点数（不是数组也不是矩阵）

后续的更新计算中，也希望有使 $\gamma\gets \gamma-\eta·d\gamma$ 的形式。，因此需要有 $d\gamma^l$ 从 $N×N$ 矩阵到浮点数的转换方式。Understanding the backward pass through Batch Normalization Layer中用的算法是 $d\gamma^l=\sum_i \sum_j \hat x_{i,j}^l·dy^l_{i,j}$ ，（和推导过程不同）

类似地， $d\beta^l=\sum_i \sum_j dy^l_{i,j}$ 。

$dX^l$ 的推导

显然， $\partial Y^l/\partial \hat Z=\gamma^l$ 。

又有
$dX^l=dY^l·\frac{\partial Y^l}{\partial \hat Z^l}·\frac{\partial \hat Z^l}{\partial X^l}=dY^l·\gamma^l·\frac{\partial \hat Z^l}{\partial X^l}$

变成了计算 $\partial \hat Z^l / \partial X^l$ 的问题了，先计算 $\partial \hat Z^l / \partial Z^l$ 。

$\hat Z=\frac{Z-\overline\mu}{\overline \sigma}$

对于Batch Normalizaiton ，

$\overline\mu=\frac{1}{m}\sum_{i \in m}\frac{1}{N^2}\sum_{j \in N}\sum_{k \in N} z_{j,k}^{(i)}$

$\overline\sigma=\frac{1}{m}\sum_{i \in m}\frac{1}{N}\sum_{j \in N}\sum_{k \in N} \sqrt{ \left( z_{j,k}^{(i)}-\overline\mu \right)^2}$
即
$\overline\sigma=\frac{1}{m}\sum_{i \in m}\frac{1}{N}\sum_{j \in N}\sum_{k \in N} \left| z_{j,k}^{(i)}-\overline\mu \right|$

$Z$ 的变化会引起 $\overline \mu$ 和 $\overline \sigma$ 变化，我们需要计算 $\overline \mu$ 和 $\overline \sigma$ 的导数值。但目前的这个 $\overline \sigma$ 是有绝对值号的，不可导。给它做一点小小的处理：

$\overline\sigma=\frac{1}{m}\sum_{i \in m}\frac{1}{N}\sum_{j \in N}\sum_{k \in N} \sqrt{ \left( z_{j,k}^{(i)}-\overline\mu \right)^2+\epsilon }$

$\epsilon$ 是一个很小的常数，通常取值1.0e-8可以，这样 $\overline\sigma$ 的值基本不会改变，但可导了。

$\frac{\partial \hat Z}{\partial \overline \sigma}=\frac{1}{\overline \sigma^2}, \quad\quad\frac{\partial \hat Z}{\partial \overline \mu}^*=-\frac{1}{\overline \sigma}$

接着求 $\partial\overline \sigma/\partial Z$ 和 $\partial\overline \mu/\partial Z$

考虑到Batch Normalizaiton中一个batch中的训练样本相互独立，因此
$\frac{\partial \overline\mu}{\partial z_{i,j}}=\frac{1}{m·N^2}$
记
$t_{i,j}=z_{i,j}-\mu$ , $\overline\sigma(t_{i,j})=\frac{\sqrt{t_{i,j}^2+\epsilon}}{m·N}$ , $\overline\sigma'(t_{i,j})=\frac{t_{i,j}}{m·N·\sqrt{t_{i,j}^2+\epsilon}}\approx \frac{z_{i,j}-\mu}{m·N·\overline\sigma}$
因此，
$\frac{\partial \overline \sigma}{\partial Z}=\frac{1}{m·N·\overline\sigma}·R_{N×N}$
$\frac{\partial \overline \sigma}{\partial \overline \mu}=\frac{-1}{m·N·\overline\sigma}·R_{N×N}$
$\frac{\partial \hat Z}{\partial Z}=\frac{\partial \hat Z}{\partial Z}^*+\frac{\partial \hat Z}{\partial \overline \sigma}·\frac{\partial \overline \sigma}{\partial Z}+\frac{\partial \hat Z}{\partial \overline \sigma}·\frac{\partial \overline \sigma}{\partial \overline \mu}·\frac{\partial \overline \mu}{\partial Z}+\frac{\partial \hat Z}{\partial \overline \mu}^*·\frac{\partial \overline \mu}{\partial Z}\\=\frac{1}{\overline\sigma}+\frac{1}{\overline\sigma^2}·\frac{1}{m·N·\overline\sigma}+\frac{1}{\overline\sigma^2}·\left(\frac{-1}{m·N·\overline\sigma}\right)·\frac{1}{m·N^2}+\left(-\frac{1}{\overline \sigma}\right)·\frac{1}{m·N^2}\\=\frac{1}{\overline\sigma}·R_{N×N}+\frac{1}{m·N·\overline\sigma}·\left(\frac{1}{\overline\sigma^2}-\frac{1}{m·N^2\overline\sigma^2}-\frac{1}{N}\right)·R_{N×N}$

$R_{N×N}$ 是元素全为1的 $N×N$ 矩阵。

在Yolo中， $N$ 通常为416以上的值， $\overline\sigma$ 接近0.1的倍数，当 $m$ 取32时，式子的第二项和第一项相比几乎可以忽略不计。因此，我认为 $\partial \hat Z/\partial Z=1/\overline\sigma·R_{N×N}$ 即可。减少很多计算量。

中间的推导可能有错误，不过不影响最终的结论。

卷积部分的计算

见我之前写的文章卷积神经网络CNN的前向和后向传播（二）

其他

Batch Normalization部分，借一张图，来自Understanding the backward pass through Batch Normalization Layer

在这里插入图片描述

有batch normalization的卷积层的前向和后向传播

Batch Normalization笔记

Batch Normalization的来源

简化版的Convolutional Layer

梯度消失的问题

Normalization的变体

最基本的数据规范化

批规范化

加了Batch Normalization的卷积层

Batch Normalization放在哪里

前向传播算法

反向传播算法

$d\gamma^l$ 和 $d\beta^l$ 的推导

$dX^l$ 的推导

卷积部分的计算

其他

猜你喜欢

有batch normalization的卷积层的前向和后向传播

Batch Normalization笔记

Batch Normalization的来源

简化版的Convolutional Layer

梯度消失的问题

Normalization的变体

最基本的数据规范化

批规范化

加了Batch Normalization的卷积层

Batch Normalization放在哪里

前向传播算法

反向传播算法

d γ l d\gamma^l dγl 和 d β l d\beta^l dβl 的推导

d X l dX^l dXl 的推导

卷积部分的计算

其他

猜你喜欢

$d\gamma^l$ 和 $d\beta^l$ 的推导

$dX^l$ 的推导