矩阵求导

关于矩阵求导，其实严格意义上来说仅仅只是一种求导的矩阵表示形式，其本质还是和普通多元函数求导过程是一致的。将矩阵的各个元素拆分开来，将矩阵运算写成各个元素之间的运算，矩阵变换可以变成多元函数，这样矩阵求导过程就可以与多元函数求导过程联系起来了。要理解矩阵求导运算，最主要的其实是理解矩阵导数的表示，将矩阵导数的拆分形式与多元函数求导联系起来。
本文主要参考《Matrix cookbook》和wiki上面的内容，下面简单介绍一下矩阵求导的相关内容，为后面介绍前馈神经网络FNN的反向传播过程做铺垫。

矩阵求导的表示形式之一：值函数对向量/矩阵变量的导数

下面表达式中，y表示一个实值函数，x表示一个向量变量，那么他们的矩阵求导含义为：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 1 \partial y \partial x 2 \dots \partial y \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

yy 表示一个实值函数， XX 表示一个矩阵变量：

\partial y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 11 \partial y \partial x 21 \dots \partial y \partial x p 1 \partial y \partial x 12 \partial y \partial x 22 \dots \partial y \partial x p 2 \dots \dots \dots \dots \partial y \partial x 1 q \partial y \partial x 2 q \dots \partial y \partial x p q ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

上面给出了矩阵求导的表示形式的具体含义，很容易理解。下面给出几个例子， aa 是实数， ββ 和 xx 是向量， AA 、 BB 和 CC 是与 xx 无关的矩阵：

\partial β T x \partial x = β

\partial x T x \partial x = x

\partial x T A x \partial x = (A + A T) x

如果你能发现这三个式子左边的分子都是一个数，分母都是一个向量，那么你应该很容易理解这几个等式。是在不能理解就自己把左右两边的矩阵运算拆分开来，然后使用多元函数求导的过程将左右两边分别表示出来就行了。以第一个为例：

β T x = \sum i = 1 n β i x i

\partial β T x \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial β T x \partial x 1 \partial β T x \partial x 2 \dots \partial β T x \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial \sum n i = 1 β i x i \partial x 1 \partial \sum n i = 1 β i x i \partial x 2 \dots \partial \sum n i = 1 β i x i \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ β 1 β 2 \dots β n ⎤ ⎦ ⎥ ⎥ ⎥ = β

这样就能很清楚的理解矩阵矩阵求导的表示形式的具体含义了。

矩阵求导的表示形式之二：向量函数对值/向量/矩阵变量的导数

下面表达式中，y表示一个向量函数，x表示一个值变量，那么他们的矩阵求导含义为：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x \partial y 2 \partial x \dots \partial y n \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

接下来是向量函数 yy 对向量变量 xx 的导数含义为：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 \partial y 2 \partial x 2 \dots \partial y m \partial x n \partial y 1 \partial x 2 \partial y 2 \partial x 2 \dots \partial y m \partial x 2 \dots \dots \dots \dots \partial y 1 \partial x n \partial y 2 \partial x n \dots \partial y m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

以一个最为简单的例子为例：

y = W x

那么：

\partial y \partial x = W

最后向量函数 yy 对矩阵变量 WW 的导数是一个张量，具体形状为：

\partial y \partial W = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial W 11 \partial y 1 \partial W 21 \dots \partial y 1 \partial W m 1 \partial y 1 \partial W 12 \partial y 1 \partial W 22 \dots \partial y 1 \partial W m 2 \dots \dots \dots \dots \partial y 1 \partial W 2 n \partial y 1 \partial W 2 n \dots \partial y 1 \partial W m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 2 \partial W 11 \partial y 2 \partial W 21 \dots \partial y 2 \partial W m 1 \partial y 2 \partial W 12 \partial y 2 \partial W 22 \dots \partial y 2 \partial W m 2 \dots \dots \dots \dots \partial y 2 \partial W 2 n \partial y 2 \partial W 2 n \dots \partial y 2 \partial W m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \dots ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y k \partial W 11 \partial y k \partial W 21 \dots \partial y k \partial W m 1 \partial y k \partial W 12 \partial y k \partial W 22 \dots \partial y k \partial W m 2 \dots \dots \dots \dots \partial y k \partial W 2 n \partial y k \partial W 2 n \dots \partial y k \partial W m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

同样举出一个例子说明这个形式的含义： l=f(y)l=f(y) 其中， yy 为 mm 维向量，然后 y=Wxy=Wx ， WW 为 m∗nm∗n 的矩阵， xx 为 nn 维向量。然后 ∂l∂y∂l∂y 为 mm 维向量， ∂y∂W∂y∂W 为 m∗m∗nm∗m∗n 维张量，最后根据链式法则有 ∂l∂W=∂l∂y∂y∂W∂l∂W=∂l∂y∂y∂W ，很显然最后的结果 ∂l∂W∂l∂W 应该是一个 m∗nm∗n 为的矩阵，而等式另外边为 mm 维向量乘上 m∗m∗nm∗m∗n 维张量，其结果为 m∗nm∗n 维矩阵。将这个过程拆开来看：

\partial y \partial W = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial W 11 \partial y \partial W 21 \dots \partial y \partial W m 1 \partial y \partial W 12 \partial y \partial W 22 \dots \partial y \partial W m 2 \dots \dots \dots \dots \partial y \partial W 1 n \partial y \partial W 2 n \dots \partial y \partial W m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W 11 \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W 21 \dots \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W m 1 \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W 12 \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W 22 \dots \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W m 2 \dots \dots \dots \dots \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W 1 n \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W 2 n \dots \sum m i = 1 \partial l \partial y 1 \partial y 1 \partial W m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

矩阵求导的表示形式之三：矩阵函数对值/向量/矩阵变量的导数

首先矩阵函数Y对值变量x的导数含义为：

\partial Y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 11 \partial x \partial y 21 \partial x \dots \partial y p 1 \partial x \partial y 12 \partial x \partial y 22 \partial x \dots \partial y p 2 \partial x \dots \dots \dots \dots \partial y 1 q \partial x \partial y 2 q \partial x \dots \partial y p q \partial x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

这个也很容易理解，然后矩阵函数对向量变量的导数是形式上是一个张量，矩阵函数对矩阵变量的导数是一个四阶张量。
这些导数的形式很少用到，但实际上本质还是一样的：矩阵求导本质上是多元函数求导的矩阵表示形式，其函数由矩阵运算定义，其导数形式是为了同样满足矩阵运算而定义的。还是那句话，如果不理解矩阵求导过程，直接把矩阵运算转化成基本的多元函数运算，用多元函数求导方法写出其形式就很容易理解了。

当然，上面几个仅仅是非常简单的矩阵求导，更复杂的涉及到求迹（对角线上元素的和）tr(A)、行列式det(A)等就需要去参照《Matrix Cookbook》中的内容自行理解了。了解到上面的内容已经足够让我们来理解神经网络的反向传播了。

神经网络反向传播

讲到神经网络的反向传播首先不得不提一下求导的链式法则：实际上神经网络本质上可以说是一堆向量操作加上激活函数，也可以说是一堆线性函数操作加上激活函数，整个过程最终都可以展开成一个无比大的函数。为了比较好表述神经网络的每一层的正向计算以及反向传播，才表述为矩阵计算与链式法则计算梯度，其本质还是非常简单的多元函数求导。

链式法则

链式法则是多元函数求导基本，通常意义上的链式法则表述如下：

z = f (x, y) x = g (u, v) y = h (u, v)

那么就有：

\partial z \partial u = \partial z \partial x \partial x \partial u + \partial z \partial y \partial y \partial u \partial z \partial v = \partial z \partial x \partial x \partial v + \partial z \partial y \partial y \partial v

这个看起来是不是很简单，理解偏导和梯度的含义就应该很容易理解这个过程。那么接下来，重头戏来了：上面过程中 yy 可以是 xx 的函数，甚至可以是 xx 。来我们先举一个简单的例子来看：

z = x x x = u + v

对于这样一个例子，我们先把上面式子中指数项的 xx 记做 yy ，那么上面的式子就转化为：

z = x y x = u + v y = u + v

接下来我们来根据链式法则来求导：

\partial z \partial u = \partial z \partial x \partial x \partial u + \partial z \partial y \partial y \partial u = y x y - 1 \partial x \partial u + x y l n (x) \partial y \partial u = (u + v) u + v + (u + v) u + v l n (u + v)

\partial z \partial v = \partial z \partial x \partial x \partial v + \partial z \partial y \partial y \partial v = y x y - 1 \partial x \partial v + x y l n (x) \partial y \partial v = (u + v) u + v + (u + v) u + v l n (u + v)

额，是不是很神奇： dxxdx=xx+xxln(x)dxxdx=xx+xxln(x) 这个式子也可以通过将两个 xx 看做不同的 xx 分别求偏导然后求全微分而得到其导数，当且仅当原函数可微时才能这样做。
好吧，上面这些内容其实是一些题外话，我们真正需要了解的是：在矩阵操作中，我们可以把例如 y=Wx+by=Wx+b 这样的矩阵操作看做是多元函数

全连接层的反向传播

一层全连接层的神经网络的本质是一个output=f(input)的多元函数，例如一般来说一层全连接以x表示输入向量，y表示输出向量，那么一层全连接神经网络可数学表示为：

y = σ (W x + b)

其中 WW 和 bb 是参数，前者是映射矩阵，后者是偏置向量， σσ 表示激活函数，这是一个数值函数，也就是对矩阵/向量中的每一个值做这样一个函数映射，常用的激活函数有如下几种：
sigmoid 激活函数：

y = 1 1 + e - x

sigmoid 激活函数的导数：

y' = (1 1 + e - x)' = e - x ( 1 + e - x ) 2 = 1 + e - x - 1 ( 1 + e - x ) 2 = 1 1 + e - x (1 - 1 1 + e - x) = y (1 - y)

tanh 激活函数：

y = e x - e - x e x + e - x

tanh 激活函数的导数：

y' = (e x - e - x e x + e - x)' = ( e x + e - x ) 2 - ( e x - e - x ) 2 ( e x + e - x ) 2 = 1 - ( e x - e - x ) 2 ( e x + e - x ) 2 = 1 - y 2

relu 激活函数：

y = {x, 0, x > 0 x < = 0

relu 激活函数的导数：

y' = {1, 0, x > 0 x < = 0

从上面这三种常用激活函数的导数可以看出，激活函数反向求导都非常简单直接。然后，我们将从两种角度来给出全连接层反向传播的导数：矩阵形式和多元函数形式。

全连接层的反向传播的矩阵形式

神经网络反向传播时，我们已知的是∂l∂y，也就是前面层传过来的loss对于当前层输出的梯度，然后一方面我们需要知道loss对于参数的梯度∂l∂W和∂l∂b，而另一方面我们也需要知道loss对于输入的梯度∂l∂x，以便于参数向前面层传播，更新前面层的参数。假设我们以sigmoid函数作为激活函数：

y = σ (W x + b)

利用链式法则我们有：

\partial l \partial W = \partial l \partial y \partial y \partial ( W x + b ) \partial ( W x + b ) \partial W = \partial l \partial y \circ (y \circ (1 - y)) x T

\partial l \partial b = \partial l \partial y \partial y \partial ( W x + b ) \partial ( W x + b ) \partial b = \partial l \partial y \circ (y \circ (1 - y))

\partial l \partial x = \partial l \partial y \partial y \partial ( W x + b ) \partial ( W x + b ) \partial x = \partial l \partial y \circ (y \circ (1 - y)) W

其中 ∘∘ 表示矩阵对应值相乘。

全连接层的反向传播的多元函数形式

接下来给出全连接层的多元函数形式：

y = σ (W x + b)

记

y = ⎡ ⎣ ⎢ ⎢ ⎢ y 1 y 2 \dots y m ⎤ ⎦ ⎥ ⎥ ⎥

则有：

y i = σ (\sum j = 1 n W i j x j + b i), i = 1, 2, . . ., m

那么有：( WijWij 只影响 yiyi ， bibi 只影响 yiyi 。)

\partial l \partial W i j = \partial l \partial y i y i (1 - y i) x j, i = 1, 2, . . ., m, j = 1, 2, . . . n

\partial l \partial b i = \partial l \partial y i y i (1 - y i), i = 1, 2, . . ., m

( xjxj 影响 y1,y2,...,ymy1,y2,...,ym )

\partial l \partial x j = \sum i = 1 m \partial l \partial y i y i (1 - y i) W i j, j = 1, 2, . . ., n

把上面的东西写进矩阵里面就有：

\partial l \partial W = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial l \partial y 1 y 1 (1 - y 1) x 1 \partial l \partial y 2 y 2 (1 - y 2) x 1 \dots \partial l \partial y m y m (1 - y m) x 1 \partial l \partial y 1 y 1 (1 - y 1) x 2 \partial l \partial y 2 y 2 (1 - y 2) x 2 \dots \partial l \partial y m y m (1 - y m) x 2 \dots \dots \dots \dots \partial l \partial y 1 y 1 (1 - y 1) x n \partial l \partial y 2 y 2 (1 - y 2) x n \dots \partial l \partial y m y m (1 - y m) x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial l \partial y 1 y 1 (1 - y 1) \partial l \partial y 2 y 2 (1 - y 2) \dots \partial l \partial y m y m (1 - y m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ [x 1 x 2 \dots x n] = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial l \partial y 1 \partial l \partial y 2 \dots \partial l \partial y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \circ ⎡ ⎣ ⎢ ⎢ ⎢ y 1 y 2 \dots y m ⎤ ⎦ ⎥ ⎥ ⎥ \circ ⎡ ⎣ ⎢ ⎢ ⎢ 1 - y 1 1 - y 2 \dots 1 - y m ⎤ ⎦ ⎥ ⎥ ⎥ [x 1 x 2 \dots x n] = \partial l \partial y \circ (y \circ (1 - y)) x T

\partial l \partial b = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial l \partial y 1 y 1 (1 - y 1) \partial l \partial y 2 y 2 (1 - y 2) \dots \partial l \partial y m y m (1 - y m) \partial l \partial y 1 y 1 (1 - y 1) \partial l \partial y 2 y 2 (1 - y 2) \dots \partial l \partial y m y m (1 - y m) \dots \dots \dots \dots \partial l \partial y 1 y 1 (1 - y 1) \partial l \partial y 2 y 2 (1 - y 2) \dots \partial l \partial y m y m (1 - y m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial l \partial y 1 \partial l \partial y 2 \dots \partial l \partial y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \circ ⎡ ⎣ ⎢ ⎢ ⎢ y 1 y 2 \dots y m ⎤ ⎦ ⎥ ⎥ ⎥ \circ ⎡ ⎣ ⎢ ⎢ ⎢ 1 - y 1 1 - y 2 \dots 1 - y m ⎤ ⎦ ⎥ ⎥ ⎥ = \partial l \partial y \circ (y \circ (1 - y))

\partial l \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \sum m i = 1 \partial l \partial y i y i (1 - y i) W i 1 \sum m i = 1 \partial l \partial y i y i (1 - y i) W i 2 \dots \sum m i = 1 \partial l \partial y i y i (1 - y i) W i n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = [\partial l \partial y 1 y 1 (1 - y 1) \partial l \partial y 2 y 2 (1 - y 2) \dots \partial l \partial y m y m (1 - y m)] ⎡ ⎣ ⎢ ⎢ ⎢ W 11 W 21 \dots W m 1 W 12 W 22 \dots W m 2 \dots \dots \dots \dots W 1 n W 2 n \dots W m n ⎤ ⎦ ⎥ ⎥ ⎥ = [\partial l \partial y \circ (y \circ (1 - y))] T W

最后一个貌似转置行列有些对应不上，哈哈哈！！！

————矩阵求导与神经网络反向传播