BP神经网络推导整理

维度计算：

输入矩阵维度：
$shape(X)=(n,1)$
输出矩阵维度：
$shape(Y)=(o,1)$
隐藏层神经元个数m，输入层到隐藏层的权重维度：
$shape(W1)=(m,n)$
隐藏层神经元个数m，隐藏层到输出层的权重维度：
$shape(W2)=(o,m)$
可通过以上条件计算出隐藏层输出矩阵H的维度：
$shape(H)=shape(W1)shape(X)=(m,n)(n,1)=(m,1)$

正向计算：

隐含层输出： $H=\pi(W1X)$
神经网络输出： $\hat{Y}=\pi(W2H)$
根据神经网络输出和真实结果计算损失： $Loss(\hat{Y})=\frac{1}{2}(\hat{Y}-Y)^T(\hat{Y}-Y)$
其中 $\pi(x)$ 是 $sigmoid$ 激活函数，具体形式为: $\pi(x)=\frac{1}{1+e^{-x}}$
并且 $\pi(x)$ 关于 $x$ 的导数恰好为 $\pi(x)(1-\pi(x))$

链式求导得出两个权重矩阵的更新向量

首先，展开 $Loss(\hat{Y})$ ：
$Loss(\hat{Y})=\frac{1}{2}(\hat{Y}-Y)^T(\hat{Y}-Y)$
$Loss(\hat{Y})=\frac{1}{2}(\hat{Y}^T-Y^T)(\hat{Y}-Y)$
$Loss(\hat{Y})=\frac{1}{2}[\hat{Y}^T\hat{Y}-\hat{Y}^TY-Y^T\hat{Y}+Y^TY]$
$\frac{\partial{Loss(\hat{Y})}}{\partial{\hat{Y}}}=\frac{1}{2}(2\hat{Y}-2Y)=\hat{Y}-Y$
$\because\pi(x)$ 关于 $x$ 的导数恰好为 $\pi(x)(1-\pi(x))$
$\therefore\frac{\partial{\hat{Y}}}{\partial{W2}}=\hat{Y}(1-\hat{Y})H^T$
$\frac{\partial{Loss(\hat{Y})}}{\partial{W2}}=\frac{\partial{Loss(\hat{Y})}}{\partial{\hat{Y}}}\frac{\partial{\hat{Y}}}{\partial{W2}}=(\hat{Y}-Y)\hat{Y}(1-\hat{Y})H^T$
于是计算出权值矩阵 $W2$ 的更新公式：
$W2 \leftarrow W2+\eta(\hat{Y}-Y)\hat{Y}(1-\hat{Y})H^T$
接下来推导 $W1$ 的更新公式
$\frac{\partial{Loss(\hat{Y})}}{\partial{W1}}=\frac{\partial{Loss(\hat{Y})}}{\partial{\hat{Y}}}\frac{\partial{\hat{Y}}}{\partial{H}}\frac{\partial{H}}{\partial{W1}}=H(1-H)W2^T(\hat{Y}-Y)\hat{Y}(1-\hat{Y})X^T$
于是：
$W1\leftarrow W1+\eta H(1-H)W2^T(\hat{Y}-Y)\hat{Y}(1-\hat{Y})X^T$

关于W1更新公式中W2^T在公式中出现位置的理解

要注意的是，最后W1的推导，看起来会很奇怪，总感觉 $W2^T$ 应该放在最后。
这里我是这么理解的，先不考虑对整个 $H$ 矩阵求偏导，只是对 $H$ 当中的某一个元素 $H_{j}$ 求导
那么前两步，就会变成：
$\frac{\partial{Loss(\hat{Y_{k}})}}{\partial{\hat{Y_{k}}}}\frac{\partial{\hat{Y_{k}}}}{\partial{H_{j}}}=(\hat{Y_{k}}-Y_{k})\hat{Y_{k}}(1-\hat{Y_{k}})W2_{kj}$
然后，因为目前是要求 $W1$ 矩阵的更新公式
因为 $W1$ 矩阵中任意一个元素 $W1_{ji}$ 发生改变，实际上会直接影响到下游所有节点，而不像W2的元素 $W2_{kj}$ 发生变化时，只会影响到 $\hat{Y_{k}}$ 的值。
所以对 $W_{ji}$ 求偏导的时候，不应该只有一个 $\hat{Y_{k}}$ 参与，而是与所有 $\hat{Y_{k}}$ 有关
这里不好写链式求导部分的偏导，有些书上会写成 $net_{j}$ 的偏导，我直接略去，只写后面的部分
$\sum_{k=1}^{o}(\hat{Y_{k}}-Y_{k})\hat{Y_{k}}(1-\hat{Y_{k}})W2_{kj}$
这个式子前面的 $(\hat{Y_{k}}-Y_{k})\hat{Y_{k}}(1-\hat{Y_{k}})$ 只是一个值，如果写成矩阵形式 $(\hat{Y}-Y)\hat{Y}(1-\hat{Y})$ 的话，他的 $shape=(o,1)$ 然后关键是它和 $W2_{kj}$ 的 $\sum_{k=1}^{o}$ 关系，实际上转化为矩阵形式的书写格式，应该是这样：

(Y^- Y) Y^(1 - Y^) W 2 [:, j]

$(\hat{Y}-Y)\hat{Y}(1-\hat{Y})W2[:,j]$
即和

W2 $W2$ 中某一列发生了矩阵乘法
然后这时得到的也仅仅只是一个值。
注意到这个时候只是对

Hj $H_{j}$ 求了个偏导，如果对整个

H $H$ 求偏导，那么维度应该和

H $H$ 是一样的，即

shape=(m,1) $shape=(m,1)$
然后这里你会发现如果直接把

W2[:,j] $W2[:,j]$ 换成

W2 $W2$ 的话，这两个矩阵没法相乘。。维度不正确。
但是如果换一下

W 2 T (Y^- Y) Y^(1 - Y^)

$W2^T(\hat{Y}-Y)\hat{Y}(1-\hat{Y})$
就刚好合适，首先维度是正确的。而且最后输出的结果

shape=(m,1) $shape=(m,1)$
如果在细心一点，关注一下这个结果的每一个元素，其实正好是之前的

(Y^−Y)Y^(1−Y^)W2[:,j] $(\hat{Y}-Y)\hat{Y}(1-\hat{Y})W2[:,j]$

神经网络推导整理

BP神经网络推导整理

维度计算：

正向计算：

链式求导得出两个权重矩阵的更新向量

关于W1更新公式中W2^T在公式中出现位置的理解

猜你喜欢