输入

$X_i=(x_{i0},x_{i1},...,x_{i(n-1)})$ $i \in [0,m-1]$ batch-size等于m,特征维度n

输出

$Y_i=(y_{i0},y_{i1},...,y_{i(n-1)})$ $i \in [0,m-1]$ 维度和输入 $X$ 一致

前向计算

均值
$\mu = {\mu_0,\mu_1,...,\mu_n}$ 其中
$\mu_p = \frac{1}{m}\sum_ix_{ip}$
方差
$\sigma = {\sigma_0,\sigma_1,...,\sigma_n}$ 其中
$\sigma_p = \frac{1}{m}\sum_i(x_{ip}-\mu_p)^2$
中间结果
$\overline x_{ip}=\frac{x_{ip}-\mu_p}{\sqrt{\sigma_p^2+\epsilon}}$
结果
$y_{ip}=\gamma_p \overline x_{ip}+\beta_p$ 其中
参数 $\gamma = {\gamma_0, \gamma_1,...,\gamma_{n-1}}$ 和
$\beta = {\beta_0,\beta_1,...,\beta_{n-1}}$
是learnable parameters

反向计算

$\frac{\partial O}{\partial x_{ij}}=\sum_{kl}{ \frac{\partial O}{\partial y_{kl}} } \frac{\partial y_{kl}}{\partial x_{ij}} = \sum_{kl}{ \frac{\partial O}{\partial y_{kl}} } \frac{\partial y_{kl}}{\partial \overline x_{ij}} \frac{\partial \overline x_{ij}}{\partial x_{ij}} = \sum_{kl}{ \frac{\partial O}{\partial y_{kl}} } \gamma_l \frac{\partial \overline x_{ij}}{\partial x_{ij} } \quad (1)$

$\frac{\partial \overline x_{ij}}{\partial x_{ij}} = \frac { \frac{\partial{ (x_{kl}-\mu_l)}}{\partial x_{ij}} \sqrt{\sigma_l^2+\epsilon} - \frac{ \partial {\sqrt{\sigma_l^2+\epsilon}} }{\partial x_{ij}}(x_{kl}-\mu_l) } { \sigma_l^2+\epsilon } \quad (2)$

$\frac{ \partial (x_{kl}-\mu_l)}{\partial x_{ij}} = \delta_{ki}\delta_{lj} - \delta_{lj} \frac{1}{m} \quad (3)$
其中
$\delta_{pq}= \begin{cases} 1 \quad p=q \\ 0 \quad else \end{cases}$
这个符号可以替代推导过程中的if-else，遇到求和号可以消除
$\frac{\partial \sqrt{\sigma_l^2 + \epsilon}} {\partial x_{ij}} = \frac{1}{m} \frac{1}{\sqrt{\sigma_l^2+\epsilon}} \delta_{lj} (x_{il} - \mu_l) \quad (4)$
(3)(4)带入(2)得到
$\frac{\partial \overline x_{ij}}{\partial x_{ij}} = \delta_{lj} \frac { (\delta_{ki} - \frac{1}{m}) \sqrt{\sigma_l^2 + \epsilon} - \frac{1}{m\sqrt{\sigma_l^2 + \epsilon}}(x_{kl}-\mu_l)(x_{il}-\mu_l) } {\sigma_l^2 + \epsilon}$
上式带入公式(1)得到
$\frac{\partial O}{\partial x_{ij}} = \frac{\gamma_j}{m\sqrt{\sigma_j^2 + \epsilon}(\sigma_j^2 + \epsilon)} ( (\sigma_j^2 + \epsilon)( m\frac{\partial O}{\partial y_{jj}}-\sum_k\frac{\partial O}{\partial y_{kj}}) - (x_{ij}-\mu_j)(x_{kj}-\mu_j)\sum_k\frac{\partial O}{\partial y_{kj}} ) \quad (done)$

batch norm反向公式推导

输入

输出

前向计算

反向计算

猜你喜欢