Deeplearning.ai 2.10-2.13 梯度下降算法为什么可以向量化

1. 向量化 $m$ 个样本下的梯度下降

　　向量化就是使用矩阵操作代替for循环来加快运算速度的过程，但是向量化的前提是for循环中前后两次迭代中的变量没有因果依赖关系。2.10和2.11这两节中进行梯度下降算法可以进行向量化，也正是这个原因。
　　代价函数为 $m$ 个样本的交叉熵均值 $J$ 的表达式

\begin{matrix} (1) & J (w, b) = \frac{1}{m} \sum_{i = 1}^{m} L (a^{(i)}, y^{(i)}) \end{matrix}

$J(w,b)=\frac{1}{m} \sum_{i=1}^{m}\mathcal{L}(a^{(i)},y^{(i)})\tag{1}$
其中

L (a^{(i)}, y^{(i)})

$\mathcal{L}(a^{(i)},y^{(i)})$ 表示第

i

$i$ 个样本的模型预测值

a^{(i)} = s i g m o i d (w^{T} x^{(i)} + b)

$a^{(i)}=sigmoid(w^Tx^{(i)}+b)$ 与真实标签

y^{(i)}

$y^{(i)}$ 之间的交叉熵

\begin{matrix} (2) & L (a, y) = - y^{(i)} l o g (a^{(i)}) - (1 - y^{(i)}) l o g (1 - a^{(i)}) \end{matrix}

$\mathcal{L}(a,y)=-y^{(i)}log(a^{(i)})-(1-y^{(i)})log(1-a^{(i)})\tag{2}$

$J=0,dw_1=0,dw_2=0,db=0$ # initialize
for $i=1$ to $m:$
　　　　 $z^{(i)}=w^Tx^{(i)}+b$ #- - - - - - - - – - - (3)
　　　　 $a^{(i)}=\sigma(z^{(i)})$
　　　　 $J +=-y^{(i)}log(a^{(i)})-(1-y^{(i)})log(1-a^{(i)})$
　　　　 $dz^{(i)}=a^{(i)}-y^{(i)}$
　　　　 $dw_1+=x_1^{(i)}dz^{(i)}$ # here $w_1$ is corresponding to the feature $x_1$
　　　　 $dw_2+=x_2^{(i)}dz^{(i)}$
　　　　 $db+=dz^{(i)}$
$J/=J$
$dw_1/=m,dw_2/=m,db/=m,$
$w_1:=w_1-\alpha w_1$ # here $\alpha$ is the learning rate
$w_2:=w_2-\alpha w_2$
$b:=b-\alpha b$

　　在上述梯度下降算法的循环体中，（3）式中的 $w$ 和 $b$ 始终保持为初始值（不是 $w_1,w_2$ ）没有更新，因此，每一次循环所计算的 $z^{(i)}$ 只与 $x^{(i)}$ 有关，而与其他样本无关。因此梯度下降算法可以通过向量化计算。向量化之后的梯度下降算法可以描述为（针对 $m$ 个样本）：

前向传播反向传播

$Z^{[1]}=W^{[1]}X^{[1]}+b^{[1]}$ $dZ^{[2]}=A^{[2]}-Y$

$A^{[1]}=g^{[1]}(Z^{[1]})$ $dW^{[2]}=\dfrac{1}{m}dZ^{[2]}\cdot A^{[1]T}$

$Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}$ $db^{[2]}=\dfrac{1}{m}$ np.sum( $dZ^{[2]}$ ,axis=1,keepdims=True)

$A^{[2]}=g^{[2]}(Z^{[2]})$ $dZ^{[1]}=W^{[2]T}\cdot dZ^{[2]}*g'(Z^{[1]})$

$dW^{[1]}=\dfrac{1}{m}dZ^{[1]}\cdot X^{T}$

$db^{[1]}=\dfrac{1}{m}$ np.sum( $dZ^{[1]}$ ,axis=1,keepdims=True)

前向传播	反向传播
$Z^{[1]}=W^{[1]}*X^{[1]}+b^{[1]}$	$dZ^{[2]}=A^{[2]}-Y$
$A^{[1]}=g^{[1]}(Z^{[1]})$	$dW^{[2]}=\dfrac{1}{m}dZ^{[2]}\cdot A^{[1]T}$
$Z^{[2]}=W^{[2]}*A^{[1]}+b^{[2]}$	$db^{[2]}=\dfrac{1}{m}$ np.sum( $dZ^{[2]}$ ,axis=1,keepdims=True)
$A^{[2]}=g^{[2]}(Z^{[2]})$	$dZ^{[1]}=W^{[2]T}\cdot dZ^{[2]}*g'(Z^{[1]})$
	$dW^{[1]}=\dfrac{1}{m}dZ^{[1]}\cdot X^{T}$
	$db^{[1]}=\dfrac{1}{m}$ np.sum( $dZ^{[1]}$ ,axis=1,keepdims=True)

2. 关于梯度下降中几个公式的注释

　　上面的表格分别列出了前向传播和反向传播种的关键步骤。在反向传播的6个关键步骤中，每一个都是相对于损失函数 $\mathcal{L}$ 的偏导数，并且几个式子和数学中微积分的偏导形式不太一样，因此看起来不是很形象。
$dZ^{[2]}=A^{[2]}-Y\tag{4}$
这里的” $dZ^{[2]}$ ”实际上是 $\dfrac{\partial{\mathcal{L}}}{\partial{Z^{[2]}}}$ 因此，

\begin{matrix} (5) & d Z^{[2]} = \frac{\partial L}{\partial A^{[2]}} \cdot \frac{\partial A^{[2]}}{\partial Z^{[2]}} = (- \frac{Y}{A^{[2]}} - \frac{1 - Y}{1 - A^{[2]}}) \cdot (A^{[2]} (1 - A^{[2]})) = A^{[2]} - Y \end{matrix}

$dZ^{[2]}=\dfrac{\partial{\mathcal{L}}}{\partial{A^{[2]}}}\cdot\dfrac{\partial{A^{[2]}}}{\partial{Z^{[2]}}}=(-\dfrac{Y}{A^{[2]}}-\dfrac{1-Y}{1-A^{[2]}})\cdot(A^{[2]}(1-A^{[2]}))=A^{[2]}-Y\tag{5}$
同理，“

d W^{[2]}

$dW^{[2]}$ ”实际上是

\frac{\partial L}{W^{[2]}}

$\dfrac{\partial{\mathcal{L}}}{W^{[2]}}$ ，利用微分的链式法则与(5)式中的结果，可以得到

\begin{matrix} (6) & d W^{[2]} = \frac{\partial L}{W^{[2]}} = \frac{\partial L}{Z^{[2]}} \cdot \frac{\partial Z^{[2]}}{W^{[2]}} = d Z^{[2]} \cdot A^{[1]} \end{matrix}

$dW^{[2]}=\dfrac{\partial{\mathcal{L}}}{W^{[2]}}=\dfrac{\partial{\mathcal{L}}}{Z^{[2]}}\cdot\dfrac{\partial{Z^{[2]}}}{W^{[2]}}=dZ^{[2]}\cdot A^{[1]}\tag{6}$
检查是(6)中变量的维度，由于

W^{[2]}

$W^{[2]}$ 为(

n^{[2]}, n^{[1]}

$n^{[2]},n^{[1]}$ )维，所以

d W^{[2]}

$dW^{[2]}$ 也为(

n^{[2]}, n^{[1]}

$n^{[2]},n^{[1]}$ )维，而

d Z^{[2]}

$dZ^{[2]}$ 为

(n^{[2]}, m)

$(n^{[2]},m)$ )维,而

A^{[1]}

$A^{[1]}$ 为

(n^{[1]}, m)

$(n^{[1]},m)$ )维，因此
式(6)改写为

\begin{matrix} (7) & d W^{[2]} = \frac{\partial L}{W^{[2]}} = \frac{\partial L}{Z^{[2]}} \cdot \frac{\partial Z^{[2]}}{W^{[2]}} = \frac{1}{m} A^{[1] T} \cdot d Z^{[2]} \end{matrix}

$dW^{[2]}=\dfrac{\partial{\mathcal{L}}}{W^{[2]}}=\dfrac{\partial{\mathcal{L}}}{Z^{[2]}}\cdot\dfrac{\partial{Z^{[2]}}}{W^{[2]}}=\dfrac{1}{m}A^{[1]T}\cdot dZ^{[2]}\tag{7}$
式(7)的前面加上了

\frac{1}{m}

$\dfrac{1}{m}$ 是由于针对

m

$m$ 个样本的情况下向量化实现后的归一化处理。
　　特别地，

d Z^{[1]} = W^{[2] T} \cdot d Z^{[2]} * g^{'} (Z^{[1]})

$dZ^{[1]}=W^{[2]T}\cdot dZ^{[2]}*g'(Z^{[1]})$ 中，“*”表示两个矩阵的逐元素相乘，要求两个矩阵的形状相同，而“

\cdot

$\cdot$ ”表示两个矩阵点乘，需要满足矩阵点乘条件。
　　同理可以推导其他几个式子，在利用链式法则求导的过程中，始终要明确所有的倒数都是针对损失函数而求的。