参考书籍(带书签高清版)的下载链接: https://download.csdn.net/download/zongza/10701105

前言

神经网络的精髓就是反向传播算法,其中涉及到一些矩阵的求导运算,只有掌握了与矩阵相关的求导法则才能真正理解神经网络.

本文以 https://blog.csdn.net/zongza/article/details/82849976 中所示的三层神经网络为例,通过一些简单的法则实现对文中逻辑回归的反向传播推导.

与矩阵有关的求导主要分为两类:

标量 f 对矩阵 W的导数 (其结果是和W同纬度的矩阵,也就是f对W逐元素求导排成与W尺寸相同的矩阵)
矩阵 F 对矩阵 W的导数 (其结果是一个四维的矩阵,这个不是本文关注的重点,因为暂时用不到)

回到博文中提到的神经网络, 这里f 实际上就是loss(神经网络的损失),每个batch的训练集所获得的损失都是一个标量,他是网络参数W和b的函数 (f = LOSS(W,b)),因此想要完成对参数的更新就需要求 L这个标量对W这个矩阵的导数 $\frac{\partial L}{\partial W}$ ,在代码中简记为dW,如下所示,本文的目的就是手动完成dW_1和dW_2以及db_1,db_2的推导过程:

#正向传播
 
Z_1 = np.dot(W_1.T,X) + b_1    # 维度N1*M ,N1表示第一隐层的神经元数
A_1 = sigmoid(Z_1)             # 维度N1*M
 
Z_2 = np.dot(W_2.T,A_1) + b_2  # 维度N2*M ,N2表示输出层的神经元数
A_2 = sigmoid(Z_2)             # 维度N2*M
 
L = cross_entropy(A_2,Y)       # 标量(具体实现待研究)
 
#反向传播
 
dZ_2 = A_2 - Y                                    # 维度N2*M ,N2表示输出层的神经元数
dW_2 = 1/m* np.dot(dZ_2, A_1.T)                   # 维度N2*N1 
db_2 = 1/m* np.sum(dZ_2,axis = 1,keepdims = true) # 维度N2*1
 
dZ_1 = np.dot(W_2,dZ_2) * A_1*(1-A_1)           # 维度N1*M，注意这里是对sigmoid激活函数的推导，若激活函数变成ReLu则*A_1（大于0的部分）
dW_1 = 1/m* np.dot(dZ_1, X.T)                     # 维度N1*N0,N0表示单样本的特征数
db_1 = 1/m* np.sum(dZ_1,axis = 1,keepdims = true) # 维度N1*1

1.基础知识

首先回顾一下高数中的导数与微分的知识:

一元微积分中的微分df与导数 ${f}'(x)$ (标量对标量的导数): $df = {f}'(x) dx$
多元微积分中的微分df与梯度 $\frac{\partial f}{\partial x}$ (标量对向量的导数): $df = \sum^{n}_{i=1} \frac{\partial f}{\partial x_{i}} dx_{i} = (\frac{\partial f}{\partial x})^{T}dx$

这里微分与梯度的联系中第一个等号是全微分公式,第二个等号则表明全微分df是由梯度向量 $\frac{\partial f}{\partial x}$ (n*1)和微分向量dx(n*1)的内积(关于向量内积的概念,可以参考这里)

受此启发,我们可以将微分df和矩阵导数 $\frac{\partial f}{\partial X}$ (标量对矩阵的导数)视为: $df = \sum^{m}_{i=1} \sum^{n}_{j=1} \frac{\partial f}{\partial X_{ij}}dX_{ij}=tr(\frac{\partial f}{\partial X}^{T} dX)$

这里,与梯度类似,第一个等号是全微分公式,第二个等号则表明全微分df是由导数矩阵 $\frac{\partial f}{\partial X}$ (m*n)和微分矩阵dX(m*n)的内积(矩阵的内积是指两个同维矩阵进行元素乘法后新矩阵所有元素相加的和,反映到等式中就是两个sum)

需要注意的是tr表示矩阵的迹(tarce),是方针对角线元素之和,满足性质：对尺寸相同的矩阵A,B

$tr(A^{T}B)=\sum_{i,j}A_{ij}B_{ij}$

也即:上式左部可视为矩阵A,B的内积(上式右部),例如:

$tr(\frac{\partial f}{\partial X}^{T} dX)=tr \bigl(\begin{smallmatrix} \frac{\partial f}{\partial X_{1,1}} &\frac{\partial f}{\partial X_{1,2}} \\ \frac{\partial f}{\partial X_{2,1}}& \frac{\partial f}{\partial X_{2,2}} \end{smallmatrix}\bigr)^{T} \bigl(\begin{smallmatrix} dx_{1,1} &dx_{1,2}\\ dx_{2,1}& dx_{2,2} \end{smallmatrix}\bigr) = tr \bigl(\begin{smallmatrix} \frac{\partial f}{\partial X_{1,1}} &\frac{\partial f}{\partial X_{2,1}} \\ \frac{\partial f}{\partial X_{1,2}} & \frac{\partial f}{\partial X_{2,2}} \end{smallmatrix}\bigr) \bigl(\begin{smallmatrix} dx_{1,1} &dx_{1,2}\\ dx_{2,1}& dx_{2,2} \end{smallmatrix}\bigr)$

$=tr \bigl(\begin{smallmatrix} \frac{\partial f}{\partial X_{1,1}}dX_{1,1}+\frac{\partial f}{\partial X_{2,1}}dX_{2,1} & \frac{\partial f}{\partial X_{1,1}}dX_{1,2}+\frac{\partial f}{\partial X_{2,1}}dX_{2,2}\\ \frac{\partial f}{\partial X_{1,2}}dX_{1,1}+\frac{\partial f}{\partial X_{2,2}}dX_{2,1} & \frac{\partial f}{\partial X_{1,2}}dX_{1,2}+\frac{\partial f}{\partial X_{2,2}}dX_{2,2} \end{smallmatrix}\bigr)$

$= \frac{\partial f}{\partial X_{1,1}}dX_{1,1}+\frac{\partial f}{\partial X_{2,1}}dX_{2,1} + \frac{\partial f}{\partial X_{1,2}}dX_{1,2}+\frac{\partial f}{\partial X_{2,2}}dX_{2,2}=\sum^{m}_{i=1} \sum^{n}_{j=1} \frac{\partial f}{\partial X_{ij}}dX_{ij}$

2.运算法则

回想遇到的较复杂的一元函数.如: $f= log(2+sinx)e^{\sqrt{x}}$ 我们是如何求导的呢？通常不是从定义开始求极限，而是先建立了初等函数求导和四则运算、复合等法则，再来运用这些法则。故而，我们来创立常用的矩阵微分的运算法则：

加减法: $d(X\pm Y)=dX \pm dY$
乘法: d(XY) = (dX)Y+XdY
转置: $d(X^{T})=dX^{T}$
迹: $d tr(X) = tr(dX)$
逆: $dX^{-1}=-X^{-1}dXX^{-1}$ (可由 $XX^{-1}=I$ 两侧求微分证明)
行列式: $d|X| = tr(X^{*} dX)$ 其中 $X^{*}$ 表示X的伴随矩阵,在X可逆时又可以写成 $d|X| = |X|tr(X^{-1} dX)$ 此式可用laplace展开证明
逐元素乘法: $d(X\odot Y) = (dX) \odot Y + X \odot dY$ 其中 $\odot$ 表示尺寸相同的矩阵X,Y进行元素乘法
逐元素函数: $d\sigma(X) = {\sigma}'(X) \odot dX$ 其中 $\sigma(X) = [\sigma(X_{i,j})]$ 是逐元素标量函数计算 ${\sigma}'(X) = [{\sigma}'(X_{i,j})]$ 是逐元素标量导数计算

这里解释一下逐元素函数和逐元素求导,举个例子:

$X=[x_{1},x_{2}]$ ,那么 $d(sinX) = [cosx_{1}dx_{1},cosx_{2}dx_{2}] = cosX \odot dX$

我们试图利用微分与矩阵导数的联系 $df = \sum^{m}_{i=1} \sum^{n}_{j=1} \frac{\partial f}{\partial X_{ij}}dX_{ij}=tr(\frac{\partial f}{\partial X}^{T} dX)$ 在求出左侧的微分 $df$ 后，该如何写成右侧的形式并得到导数呢？这需要一些迹技巧(trace trick)：

标量套上迹 : a = tr(a)
转置: $tr(A^{T}) = tr(A)$
线性: $tr(A \pm B) =tr(A) \pm tr(B)$
矩阵乘法交换: $tr(AB) = tr(BA)$ ,其中A与 $B^{T}$ 尺寸相同,两侧都等于 $\sum_{i,j}A_{ij}B_{ij}$
矩阵乘法/逐元素乘法交换: $tr(A^{T}(B \odot C)) = tr((A \odot B)^{T} C)$ 其中ABC尺寸相同,两侧都等于 $\sum_{i,j}A_{ij}B_{ij}C_{ij}$

观察一下可以断言: 若标量函数f是矩阵X经加减乘法、行列式、逆、逐元素函数等运算构成，则使用相应的运算法则对f求微分，再使用迹技巧给df套上迹(df是标量tr(df) = df)并将其它项交换至dX左侧，即能得到导数。

3.三层神经网络反向传播推导

假定一共有M个样本,每个样本的特征值有N0个,第一隐层的神经元有N1个,输出层的神经元有N2个 ,正向传播得到损失L(标量)的过程如下:

#正向传播
 
Z_1 = np.dot(W_1.T,X) + b_1    # 维度N1*M ,N1表示第一隐层的神经元数
A_1 = sigmoid(Z_1)             # 维度N1*M
 
Z_2 = np.dot(W_2.T,A_1) + b_2  # 维度N2*M ,N2表示输出层的神经元数
A_2 = sigmoid(Z_2)             # 维度N2*M ,本例中N2=1
 
L = cross_entropy(A_2,Y)       # 标量

具体到损失L的计算公式有:

$L = (-(Y\odot log(A_2))-((1-Y)\odot log(1-A_2)) I$

(注: $I$ 是一个(M,1)的单位向量,表示求和的操作,这里为了表示方便少写了一个求均值操作(除以M)表示用M个样本的loss均值表示一个batch的loss)

其中Y(N2,M), $\odot$ 是逐元素乘法,N2相当于样本可以分成N2个种类(本例中N2=1,也就是二分类.如果是多元的就得用softmax而不是cross_entropy,最后得到的同样是一个标量,不过公式不同了),M是样本总数.

第一步: 求微分dL

   $dL = -(dY\odot log(A_{2})+Y\odot dlog(A_{2})+d(1-Y)\odot log(1-A_{2})+(1-Y)\odot dlog(1-A_{2})) I$

其中Y是常矩阵,所以dY和 $dI$ 为零阵,同时由法则知 $dlog(A_{2}) = \frac{1}{A_{2}} \odot dA_{2}$ 代入得:

$dL= (\frac{A_{2}-Y}{A_{2}\odot (1-A{2})} \odot dA_{2}) I$

因为我们要求的是 $\frac{\partial L}{\partial W_{2}}$ 所以需要继续对 $A_{2},Z_{2}$ 进行微分以出现 $dW_{2}$ ,由法则可得:

$dA_{2} = A_{2}\odot (1-A_{2})\odot dZ_{2}$

$dZ_{2} = d(W_{2}^{T})A_{1}+W_{2}^{T}dA_{1} + db_2$

注意这里A1和W2,b_2都是变量,利用法则:d(XY) = (dX)Y+XdY

代入后可得dL:

   $dL = ((A_{2}-Y)\odot dZ_{2}) I$ (1)

   $dL = ((A_{2}-Y)\odot [d(W_{2}^{T})A_{1}]+(A_{2}-Y)\odot [ W_{2}^{T}dA_{1}]+ (A_2-Y)\odot db_2) I$ (2)

第二步: 使用迹技巧将dW换到最右侧

对于(1)式:

   $dZ_{2}$ 已经在最右侧,所以直接进行迹转换可得

   $dL = tr(dL) = tr(((A_{2}-Y)\odot dZ_{2})I)$

因为 $(A_{2}-Y)\odot dZ_{2}$ 与 $I^{T}$ 尺寸相同,所以有:

$dL = tr(dL) = tr(I((A_{2}-Y)\odot dZ_{2})) = tr((I^{T})^{T}((A_{2}-Y)\odot dZ_{2}))$

由法则 $tr(A^{T}(B \odot C)) = tr((A \odot B)^{T} C)$ 得:

   $dL =tr(dL) = tr(I((A_{2}-Y)\odot dZ_{2})) = tr((I^{T})^{T}((A_{2}-Y)\odot dZ_{2}))= tr([(I^{T})\odot (A_{2}-Y)]^{T} dZ_{2})$

根据 $dL = tr((\frac{\partial L}{\partial Z_{2}})^{T}dZ_{2})$ ,将其和上式最右公式比对知:

$\frac{\partial L}{\partial Z_{2}} =(I^{T})\odot (A_{2}-Y) = A_{2}-Y$

也就是代码中: dZ_2 = A_2 - Y

对于(2)式:

   $d(W_{2}^{T})$ 并不在子式的最右端,因此需要进行变换(下面公式中db_2的那一项省略了,因为得到 $\frac{\partial L}{\partial b_2}$ 的方法同 $\frac{\partial L}{\partial A_1}$ ):

   $dL = tr(dL) = tr((A_{2}-Y)\odot [d(W_{2}^{T})A_{1}] I+(A_{2}-Y)\odot [W_{2}^{T}dA_{1} ]I)$

   $= tr((A_{2}-Y)\odot [d(W_{2}^{T})A_{1}] I)+tr((A_{2}-Y)\odot [W_{2}^{T}dA_{1}] I)$

$= tr( I[(A_{2}-Y)\odot {d(W_{2}^{T})A_{1}} ]+tr(I[(A_{2}-Y)\odot W_{2}^{T}dA_{1}])$

   $= tr( [I^{T}\odot (A_{2}-Y)]^{T} (dW_{2}^{T}A_{1})) +tr([I^{T}\odot (A_{2}-Y)] ^{T}W_{2}^{T}dA_{1})$

从+号右边的式子我们可以得到(关于A_1,b_2偏导):

$\frac{\partial L}{\partial A_1} = W_2(A_2-Y)$ $\frac{\partial L}{\partial b_2} = (A_2-Y)$

对应代码:db_2 = dZ_2 (均值运算最后再考虑,这里只看求导结果)

对于+号左边还需要继续变形(移动dW到右端)才能得到另一个偏导:

$tr( [I^{T}\odot (A_{2}-Y)]^{T} (dW_{2}^{T}A_{1}))=tr((A_{2}-Y)^T(A_1^TdW_2)^T)$

$= tr([(A_1^TdW_2)(A_{2}-Y)]^T) = tr((A_1^TdW_2)(A_{2}-Y))=tr((A_{2}-Y)(A_1^TdW_2))$

因此,可得:

$\frac{\partial L}{\partial W_2} = (A_2-Y)A_1^T$

对应代码中的:dW_2 = np.dot( dZ_2 , A_1.T )

更进一步,为了得到W_1和b_1的偏导,还需要对A_1和Z_1进行微分,留给读者推导.

综上可得反向传播过程是:

#反向传播
 
dZ_2 = A_2 - Y                                    # 维度N2*M ,N2表示输出层的神经元数
dW_2 = 1/m* np.dot(dZ_2, A_1.T)                   # 维度N2*N1 
db_2 = 1/m* np.sum(dZ_2,axis = 1,keepdims = true) # 维度N2*1
 
dZ_1 = np.dot(W_2,dZ_2) * A_1*(1-A_1)           # 维度N1*M
dW_1 = 1/m* np.dot(dZ_1, X.T)                     # 维度N1*N0,N0表示单样本的特征数
db_1 = 1/m* np.sum(dZ_1,axis = 1,keepdims = true) # 维度N1*1

4.更多矩阵求导的实例

1: $f = \boldsymbol{a}^T X\boldsymbol{b}$ ,求 $\frac{\partial f}{\partial X}$ 其中 $\boldsymbol{a}$ 是 $m×1$ 列向量， $X$ 是 $m\times n$ 矩阵， $\boldsymbol{b}$ 是 $n×1$ 列向量， $f$ 是标量。

先使用矩阵乘法法则求微分，这里的 $\boldsymbol{a}, \boldsymbol{b}$ 是常量， $d\boldsymbol{a} = \boldsymbol{0}, d\boldsymbol{b} = \boldsymbol{0}$ ，得到： $df = \boldsymbol{a}^T dX\boldsymbol{b}$ ，再套上迹并做矩阵乘法交换： $df = \text{tr}(\boldsymbol{a}^TdX\boldsymbol{b}) = \text{tr}(\boldsymbol{b}\boldsymbol{a}^TdX)$ ，注意这里我们根据 $\text{tr}(AB) = \text{tr}(BA)$ 交换了 $\boldsymbol{a}^TdX$ 与 $\boldsymbol{b}$ 。对照导数与微分的联系 $df = \text{tr}\left(\frac{\partial f}{\partial X}^T dX\right)$ ，得到 $\frac{\partial f}{\partial X} = (\boldsymbol{b}\boldsymbol{a}^T)^T= \boldsymbol{a}\boldsymbol{b}^T$ 。

注意：这里不能用 $\frac{\partial f}{\partial X} =\boldsymbol{a}^T \frac{\partial X}{\partial X}\boldsymbol{b}=?$ ，导数与乘常数矩阵的交换是不合法则的运算（而微分是合法的）。有些资料在计算矩阵导数时，会略过求微分这一步，这是逻辑上解释不通的。

2： $f = \boldsymbol{a}^T \exp(X\boldsymbol{b})$ ，求 $\frac{\partial f}{\partial X}$ 。其中 $\boldsymbol{a}$ 是 $m×1$ 列向量， $X$ 是 $m\times n$ 矩阵， $\boldsymbol{b}$ 是 $n×1$ 列向量，exp表示逐元素求指数， $f$ 是标量。

先使用矩阵乘法、逐元素函数法则求微分： $df = \boldsymbol{a}^T(\exp(X\boldsymbol{b})\odot (dX\boldsymbol{b}))$ ，再套上迹并做矩阵乘法/逐元素乘法交换、矩阵乘法交换： $df = \text{tr}( \boldsymbol{a}^T(\exp(X\boldsymbol{b})\odot (dX\boldsymbol{b}))) =\text{tr}((\boldsymbol{a}\odot \exp(X\boldsymbol{b}))^TdX \boldsymbol{b}) = \text{tr}(\boldsymbol{b}(\boldsymbol{a}\odot \exp(X\boldsymbol{b}))^TdX)$ ，注意这里我们先根据 $\text{tr}(A^T(B\odot C)) = \text{tr}((A\odot B)^TC)$ 交换了 $\boldsymbol{a}$ 、 $\exp(X\boldsymbol{b})$ 与 $dX\boldsymbol{b}$ ，再根据 $\text{tr}(AB) = \text{tr}(BA)$ 交换了 $(\boldsymbol{a}\odot \exp(X\boldsymbol{b}))^TdX$ 与 $\boldsymbol{b}$ 。对照导数与微分的联系 $df = \text{tr}\left(\frac{\partial f}{\partial X}^T dX\right)$ ，得到 $\frac{\partial f}{\partial X} = (\boldsymbol{b}(\boldsymbol{a}\odot \exp(X\boldsymbol{b}))^T)^T= (\boldsymbol{a}\odot \exp(X\boldsymbol{b}))\boldsymbol{b}^T$ 。

3【线性回归】： $l = \|X\boldsymbol{w}- \boldsymbol{y}\|^2$ ，求 $\boldsymbol{w}$ 的最小二乘估计，即求 $\frac{\partial l}{\partial \boldsymbol{w}}$ 的零点。其中 $\boldsymbol{y}$ 是 $m×1$ 列向量， $X$ 是 $m\times n$ 矩阵， $\boldsymbol{w}$ 是 $n×1$ 列向量， $l$ 是标量。

严格来说这是标量对向量的导数，不过可以把向量看做矩阵的特例。先将向量模平方改写成向量与自身的内积： $l = (X\boldsymbol{w}- \boldsymbol{y})^T(X\boldsymbol{w}- \boldsymbol{y})$ ，求微分，使用矩阵乘法、转置等法则： $dl = (Xd\boldsymbol{w})^T(X\boldsymbol{w}-\boldsymbol{y})+(X\boldsymbol{w}-\boldsymbol{y})^T(Xd\boldsymbol{w}) = 2(X\boldsymbol{w}-\boldsymbol{y})^TXd\boldsymbol{w}$ 。对照导数与微分的联系 $dl = \frac{\partial l}{\partial \boldsymbol{w}}^Td\boldsymbol{w}$ ，得到 $\frac{\partial l}{\partial \boldsymbol{w}}= (2(X\boldsymbol{w}-\boldsymbol{y})^TX)^T = 2X^T(X\boldsymbol{w}-\boldsymbol{y})$ 。 $\frac{\partial l}{\partial \boldsymbol{w}}$ 的零点即 $\boldsymbol{w}$ 的最小二乘估计为 $\boldsymbol{w} = (X^TX)^{-1}X^T\boldsymbol{y}$ 。

4【方差的最大似然估计】：样本 $\boldsymbol{x}_1,\dots, \boldsymbol{x}_n\sim N(\boldsymbol{\mu}, \Sigma)$ ，求方差 $\Sigma$ 的最大似然估计。写成数学式是： $l = \log|\Sigma|+\frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}})$ ，求 $\frac{\partial l }{\partial \Sigma}$ 的零点。其中 $\boldsymbol{x}_i$ 是 $m\times 1$ 列向量， $\overline{\boldsymbol{x}}=\frac{1}{n}\sum_{i=1}^n \boldsymbol{x}_i$ 是样本均值， $\Sigma$ 是 $m\times m$ 对称正定矩阵， $l$ 是标量。

首先求微分，使用矩阵乘法、行列式、逆等运算法则，第一项是 $d\log|\Sigma| = |\Sigma|^{-1}d|\Sigma| = \text{tr}(\Sigma^{-1}d\Sigma)$ ，第二项是 $\frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^Td\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}}) = -\frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1}d\Sigma\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}})$ 。再给第二项套上迹做交换： $\text{tr}\left(\frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1}d\Sigma\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}})\right) = \frac{1}{n}\sum_{i=1}^n\text{tr}\left((\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1}d\Sigma\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}})\right)$ $= \frac{1}{n}\sum_{i=1}^n\text{tr}\left(\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}})(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T\Sigma^{-1}d\Sigma\right)=\text{tr}(\Sigma^{-1}S\Sigma^{-1}d\Sigma)$ ，其中先交换迹与求和，然后将 $\Sigma^{-1}(\boldsymbol{x}_i-\boldsymbol{\bar{x}})$ 交换到左边，最后再交换迹与求和，并定义 $S = \frac{1}{n}\sum_{i=1}^n(\boldsymbol{x}_i-\boldsymbol{\bar{x}})(\boldsymbol{x}_i-\boldsymbol{\bar{x}})^T$ 为样本方差矩阵。得到 $dl = \text{tr}\left(\left(\Sigma^{-1}-\Sigma^{-1}S\Sigma^{-1}\right)d\Sigma\right)$ 。对照导数与微分的联系，有 $\frac{\partial l }{\partial \Sigma}=(\Sigma^{-1}-\Sigma^{-1}S\Sigma^{-1})^T$ ，其零点即 $\Sigma$ 的最大似然估计为 $\Sigma = S$ 。

5【多元logistic回归】： $l = -\boldsymbol{y}^T\log\text{softmax}(W\boldsymbol{x})$ ，求 $\frac{\partial l}{\partial W}$ 。其中 $\boldsymbol{y}$ 是除一个元素为1外其它元素为0的 $m×1$ 列向量， $W$ 是 $m\times n$ 矩阵， $\boldsymbol{x}$ 是 $n×1$ 列向量， $l$ 是标量； $\text{softmax}(\boldsymbol{a}) = \frac{\exp(\boldsymbol{a})}{\boldsymbol{1}^T\exp(\boldsymbol{a})}$ ，其中 $\exp(\boldsymbol{a})$ 表示逐元素求指数， $\boldsymbol{1}$ 代表全1向量。

首先将softmax函数代入并写成 $l = -\boldsymbol{y}^T \left(\log (\exp(W\boldsymbol{x}))-\boldsymbol{1}\log(\boldsymbol{1}^T\exp(W\boldsymbol{x}))\right) = -\boldsymbol{y}^TW\boldsymbol{x} + \log(\boldsymbol{1}^T\exp(W\boldsymbol{x}))$ ，这里要注意逐元素log满足等式 $\log(\boldsymbol{u}/c) = \log(\boldsymbol{u}) - \boldsymbol{1}\log(c)$ ，以及 $\boldsymbol{y}$ 满足 $\boldsymbol{y}^T \boldsymbol{1} = 1$ 。求微分，使用矩阵乘法、逐元素函数等法则： $dl =- \boldsymbol{y}^TdW\boldsymbol{x}+\frac{\boldsymbol{1}^T\left(\exp(W\boldsymbol{x})\odot(dW\boldsymbol{x})\right)}{\boldsymbol{1}^T\exp(W\boldsymbol{x})}$ 。再套上迹并做交换，注意可化简 $\boldsymbol{1}^T\left(\exp(W\boldsymbol{x})\odot(dW\boldsymbol{x})\right) = \exp(W\boldsymbol{x})^TdW\boldsymbol{x}$ ，这是根据等式 $\boldsymbol{1}^T (\boldsymbol{u}\odot \boldsymbol{v}) = \boldsymbol{u}^T \boldsymbol{v}$ ，故 $dl = \text{tr}\left(-\boldsymbol{y}^TdW\boldsymbol{x}+\frac{\exp(W\boldsymbol{x})^TdW\boldsymbol{x}}{\boldsymbol{1}^T\exp(W\boldsymbol{x})}\right) =\text{tr}(\boldsymbol{x}(\text{softmax}(W\boldsymbol{x})-\boldsymbol{y})^TdW)$ 。对照导数与微分的联系，得到 $\frac{\partial l}{\partial W}= (\text{softmax}(W\boldsymbol{x})-\boldsymbol{y})\boldsymbol{x}^T$ 。

另解：定义 $\boldsymbol{a} = W\boldsymbol{x}$ ，则 $l = -\boldsymbol{y}^T\log\text{softmax}(\boldsymbol{a})$ ，先如上求出 $\frac{\partial l}{\partial \boldsymbol{a}} = \text{softmax}(\boldsymbol{a})-\boldsymbol{y}$ ，再利用复合法则： $dl = \text{tr}\left(\frac{\partial l}{\partial \boldsymbol{a}}^Td\boldsymbol{a}\right) = \text{tr}\left(\frac{\partial l}{\partial \boldsymbol{a}}^TdW \boldsymbol{x}\right) = \text{tr}\left(\boldsymbol{x}\frac{\partial l}{\partial \boldsymbol{a}}^TdW\right)$ ，得到 $\frac{\partial l}{\partial W}= \frac{\partial l}{\partial\boldsymbol{a}}\boldsymbol{x}^T$ 。

最后一例留给经典的神经网络。神经网络的求导术是学术史上的重要成果，还有个专门的名字叫做BP算法，我相信如今很多人在初次推导BP算法时也会颇费一番脑筋，事实上使用矩阵求导术来推导并不复杂。为简化起见，我们推导二层神经网络的BP算法。

6【二层神经网络】： $l = -\boldsymbol{y}^T\log\text{softmax}(W_2\sigma(W_1\boldsymbol{x}))$ ，求 $\frac{\partial l}{\partial W_1}$ 和 $\frac{\partial l}{\partial W_2}$ 。其中 $\boldsymbol{y}$ 是除一个元素为1外其它元素为0的的 $m×1$ 列向量， $W_2$ 是 $m\times p$ 矩阵， $W_1$ 是 $p\times n$ 矩阵， $\boldsymbol{x}$ 是 $n×1$ 列向量， $l$ 是标量； $\text{softmax}(\boldsymbol{a}) = \frac{\exp(\boldsymbol{a})}{\boldsymbol{1}^T\exp(\boldsymbol{a})}$ 同例3， $\sigma(\cdot)$ 是逐元素sigmoid函数 $\sigma(a) = \frac{1}{1+\exp(-a)}$ 。

定义 $\boldsymbol{a}_1=W_1\boldsymbol{x}$ ， $\boldsymbol{h}_1 = \sigma(\boldsymbol{a}_1)$ ， $\boldsymbol{a}_2 = W_2 \boldsymbol{h}_1$ ，则 $l =-\boldsymbol{y}^T\log\text{softmax}(\boldsymbol{a}_2)$ 。在前例中已求出 $\frac{\partial l}{\partial \boldsymbol{a}_2} = \text{softmax}(\boldsymbol{a}_2)-\boldsymbol{y}$ 。使用复合法则，注意此处 $\boldsymbol{h}_1, W_2$ 都是变量： $dl = \text{tr}\left(\frac{\partial l}{\partial \boldsymbol{a}_2}^Td\boldsymbol{a}_2\right) = \text{tr}\left(\frac{\partial l}{\partial \boldsymbol{a}_2}^TdW_2 \boldsymbol{h}_1\right) + \text{tr}\left(\frac{\partial l}{\partial \boldsymbol{a}_2}^TW_2 d\boldsymbol{h}_1\right)$ ，使用矩阵乘法交换的迹技巧从第一项得到 $\frac{\partial l}{\partial W_2}= \frac{\partial l}{\partial\boldsymbol{a}_2}\boldsymbol{h}_1^T$ ，从第二项得到 $\frac{\partial l}{\partial \boldsymbol{h}_1}= W_2^T\frac{\partial l}{\partial\boldsymbol{a}_2}$ 。接下来求 $\frac{\partial l}{\partial \boldsymbol{a}_1}$ ，继续使用复合法则，并利用矩阵乘法和逐元素乘法交换的迹技巧： $\text{tr}\left(\frac{\partial l}{\partial\boldsymbol{h}_1}^Td\boldsymbol{h}_1\right) = \text{tr}\left(\frac{\partial l}{\partial\boldsymbol{h}_1}^T(\sigma'(\boldsymbol{a}_1)\odot d\boldsymbol{a}_1)\right) = \text{tr}\left(\left(\frac{\partial l}{\partial\boldsymbol{h}_1}\odot \sigma'(\boldsymbol{a}_1)\right)^Td\boldsymbol{a}_1\right)$ ，得到 $\frac{\partial l}{\partial \boldsymbol{a}_1}= \frac{\partial l}{\partial\boldsymbol{h}_1}\odot\sigma'(\boldsymbol{a}_1)$ 。为求 $\frac{\partial l}{\partial W_1}$ ，再用一次复合法则： $\text{tr}\left(\frac{\partial l}{\partial\boldsymbol{a}_1}^Td\boldsymbol{a}_1\right) = \text{tr}\left(\frac{\partial l}{\partial\boldsymbol{a}_1}^TdW_1\boldsymbol{x}\right) = \text{tr}\left(\boldsymbol{x}\frac{\partial l}{\partial\boldsymbol{a}_1}^TdW_1\right)$ ，得到 $\frac{\partial l}{\partial W_1}= \frac{\partial l}{\partial\boldsymbol{a}_1}\boldsymbol{x}^T$ 。