机器学习常用矩阵求导方法

本文主要对在机器学习中常用矩阵求导方法做以总结，以实用为主。同时感谢大佬@刘建平Pinard的博文，浅显易懂，更加全面的资料请见底部参考文献。

文章目录

一、标量向量矩阵求导case
二、向量矩阵求导布局

2.1 分子布局(Numerator Layout)
2.2 分母布局(Denominator Layout)
2.3 总结

三、定义法求导

3.1 标量对向量(分母布局)
3.2 标量对矩阵(分母布局)
3.3 定义法缺陷

四、微分法求导

4.1 从向量微分到矩阵微分
4.2 矩阵微分的性质
4.3 使用微分法对向量矩阵求导

五、链式法则求导

一、标量向量矩阵求导case

向量可以看做一组标量的排列集合，因此向量的求导可视为对向量中的标量逐个求导，这是向量求导的主要思路。而矩阵的求导方式在此基础上继续衍生。

此处，用 $x$ 表示标量， $\textbf{x}$ 表示向量， $X$ 表示矩阵。根据标量、向量和矩阵的组合，以下一共罗列了9种，其中在机器学习中常用的是①标量对向量和②标量对矩阵的求导。

自变量\因变量	标量 $y$	向量y	矩阵Y
标量 $x$	$\frac{\partial y}{\partial x}$	$\frac{\partial \textbf{y}}{\partial x}$	$\frac{\partial Y}{\partial x}$
向量x	$\frac{\partial y}{\partial \textbf{x}}$	$\frac{\partial \textbf{y}}{\partial \textbf{x}}$	$\frac{\partial Y}{\partial \textbf{x}}$
矩阵X	$\frac{\partial y}{\partial X}$	$\frac{\partial \textbf{y}}{\partial X}$	$\frac{\partial Y}{\partial X}$

二、向量矩阵求导布局

2.1 分子布局(Numerator Layout)

求导的结果的维度是分子的维度。这里，我自己的理解是将分子的顺序排在最前。

【例如】有 $m\times1$ 列向量 $\textbf{y}$ 对 $1\times1$ 标量 $x$ 求导 $\frac{\partial \textbf{y}}{\partial x}$ ：
①分子布局：“优先”分子 $\textbf{y}$ ，看成 $\textbf{y}$ 和 $x$ 组成的向量 $(m\times1)\times (1\times1)$ = $m\times1$
②分母布局：“优先”分母 $x$ ，看成 $x$ 和 $\textbf{y}^T$ 组成的向量 $(1\times 1)\times (1\times m)$ = $1\times m$

2.2 分母布局(Denominator Layout)

求导的结果的维度是分母的维度。

2.3 总结

自变量\因变量	$1\times1$ 标量 $y$	$m\times1$ 列向量 $\textbf{y}$	$p\times q$ 矩阵 $Y$
$1\times1$ 标量 $x$	——	$\frac{\partial \textbf{y}}{\partial x}$ 分子布局：得 $m\times 1$ 列向量(`默认`) 分母布局：得 $1\times m$ 行向量	$\frac{\partial Y}{\partial x}$ 分子布局：得 $p\times q$ 矩阵 (`默认`) 分母布局：得 $q\times p$ 矩阵
$n\times1$ 列向量 $\textbf{x}$	$\frac{\partial y}{\partial \textbf{x}}$ 分子布局：得 $1\times n$ 行向量分母布局：得 $n\times 1$ 列向量(`默认`)	$\frac{\partial \textbf{y}}{\partial \textbf{x}}$ 分子布局：得 $m\times n$ `雅克比`矩阵(`默认`) 分母布局：得 $n\times m$ `梯度矩阵`	——
$n\times m$ 矩阵 $X$	$\frac{\partial y}{\partial X}$ 分子布局：得 $m\times n$ 矩阵分母布局：得 $n\times m$ 矩阵 (`默认`)	——	——

三、定义法求导

当对向量或矩阵求导时，对其分量进行逐个求导。

3.1 标量对向量(分母布局)

【例如】：对于实值函数 $y=x^TAx$ ，其中 $x\in R^{n\times 1},A\in R^{n\times n}$ 求 $\frac{\partial x^TAx}{\partial x}$ .
已知向量 $\textbf{x}$ 有 $n$ 个分量，所以我们先求对其中第 $k$ 个分量的导数
$\frac{\partial x^TAx}{\partial x_k}=\frac{\partial \sum_{i=1}^n \sum_{j=1}^n x_iA_{ij}x_j}{\partial x_k}= \sum_{i=1}^n\sum_{j=1}^n \delta_{ik} A_{ij}x_j+ \sum_{i=1}^n\sum_{j=1}^n x_i A_{ij}\delta_{jk}$
其中 $\delta_{ik}=1，if\; i=k$ 且 $\delta_{ik}=0，if\; i\not=k$ 。因此对于 $k=1,2,...,n$ 分别求导排列成向量后如下
$\frac{\partial x^TAx}{\partial x_k}= \sum_{j=1}^n A_{kj}x_j+ \sum_{i=1}^n x_i A_{ik}=Ax+x^TA=Ax+A^Tx$

3.2 标量对矩阵(分母布局)

对于实值函数 $y=a^TXb$ ，其中 $a\in R^{n\times 1},b\in R^{m\times 1},X\in R^{n\times m}$ 求 $\frac{\partial a^TXb}{\partial X}$ .
已知向量 $X$ 有 $n\times m$ 个分量，所以我们先求对其中第 $X_{ij}$ 个分量的导数。
$\frac{\partial a^TXb}{\partial X}=\frac{\partial \sum_{p=1}^n \sum_{q=1}^m a_p X_{pq}b_q}{\partial X_{ij}}= \delta_{ip}\delta_{jq} a_i b_j=a_i b_j$
又因为 $i=1,2,...,n且j=1,2,..,m$ ，所以将这 $n\times m$ 个求导后的值排列成矩阵后为
$\frac{\partial a^TXb}{\partial X}=ab^T$

3.3 定义法缺陷

需要逐个对向量和矩阵的每个元素进行求导，然后在排列起来。对于复杂的式子难以做到且效率不高，因此需要一个整体求导解法。

四、微分法求导

回顾一下高等数学中从极限引出的导数和微分。其中 $\Delta y$ 是曲线的增量， $dy$ 是切线函数的增量。

因此导数和微分的关系如下：
【微分】： $dy=f'(x) dx，dx=\Delta x$
【导数】： $f'(x)=\frac{dy}{dx}$ ，也称微商

4.1 从向量微分到矩阵微分

①向量微分
对于向量 $\textbf{x}\in R^{n\times 1}$ ，其微分如下：
$dy = \sum_{i=1}^n \frac{dy}{dx_i} dx_i=(\frac{dy}{dx})^T dx$
②矩阵微分

【例如】：假设 $A\in R^{3\times 2},B\in R^{2\times 3},AB\in R^{3\times 3}$ ，则 $n=3,m=2$
$\begin{gathered} A=\begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \\ a_{31} & a_{32} \\ \end{bmatrix} B=\begin{bmatrix} b_{11} & b_{12} & b_{13}\\ b_{21} & b_{22} & b_{23}\\ \end{bmatrix} \end{gathered}$
则两矩阵内积为
$\begin{gathered} A B=\begin{bmatrix} a_{11}b_{11}+a_{12}b_{21} & ··· & ··· \\ ···& a_{21}b_{12}+a_{22}b_{22} & ···\\ ··· & ··· & a_{31}b_{13}+a_{32}b_{23} \\ \end{bmatrix} \end{gathered}$
因此，当两矩阵 $A,B$ 满足 $A$ 和 $B^T$ 同维度时，有如下等式成立
$tr(AB)=\sum_{i=1}^n(AB)_{ii}=\sum_{i=1}^n\sum_{j=1}^m A_{ij}B_{ji}=\sum_{j=1}^m\sum_{i=1}^n B_{ji}A_{ij}$
对于矩阵 $X\in R^{n\times m}$ ，其微分如下：
$dy = \sum_{i=1}^n\sum_{j=1}^m \frac{dy}{X_{ij}} dX_{ij} = \sum_{i,j=1}(\frac{dy}{X_{ji}})^T dX_{ij} =tr[(\frac{dy}{X})^T dX]$

4.2 矩阵微分的性质

微分加减法： $d(X\pm Y)=d(X)\pm d(Y)$
微分乘法： $d(XY) = d(X)\cdot Y + X\cdot d(Y)$
微分转置： $d(X^T)=[d(X)]^T$
微分的迹： $d[tr(X)]=tr[d(X)]$
逆矩阵微分： $d(X^{-1})=-X^{-1}d(X)X^{-1}$

4.3 使用微分法对向量矩阵求导

【所需公式】：

标量 $x$ 的迹是其本身： $tr(x) = x$
转置不变性： $tr(A^T)=tr(A)$
交换律： $tr(AB)=tr(B^TA^T)=tr(BA)$ ，需要 $A,B^T$ 同维度
加减法： $tr(A\pm B)=tr(A) \pm tr(B)$
矩阵逐元素乘法和迹交换： $tr[(A\odot B)^T C]=tr[A^T (B\odot C)]$ 。
其中， $A,B,C$ 三个矩阵同维度。 $A \odot B$ 表示逐元素相乘的哈达马积( $Hadamard\; product$ )
【例如】
$\begin{gathered} A \odot B= \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ \end{bmatrix}\odot \begin{bmatrix} 1 & 2 \\ 3 & 4 \\ \end{bmatrix} = \begin{bmatrix} 1\cdot1 & 2\cdot 2 \\ 3\cdot 3 & 4\cdot 4 \\ \end{bmatrix} = \begin{bmatrix} 1 & 4 \\ 9 & 16 \\ \end{bmatrix} \end{gathered}$
【例如】： $\begin{gathered} d(e^{Xb}) =e^{Xb} \odot d(Xb) \end{gathered}$

【求导步骤】:如 $y=a^TXb$ ，求 $\frac{dy}{dX}$ ，
已知
$dy =tr[(\frac{dy}{X})^T dX]$

① 求微分
$dy = a^T d(X)b$
② 加迹函数以将 $dx$ 调换到最右：调整矩阵乘积顺序
$dy = tr(dy)=tr(a^T d(X)b) = tr(ba^T dX)$

$\frac{dy}{dX} = (ba^T)^T=ab^T$
【例如】: $y=H^TLH$ ，求 $\frac{\partial H^TLH}{\partial H}$
① 求微分
$dy = d(H^T)LH+H^TLd(H)= d(H)^TLH+H^TLd(H)$
② 加迹函数以将 $dx$ 调换到最右
$\begin{aligned} dy = tr(dy) & = tr[d(H)^TLH+H^TLd(H)]=tr[d(H)^TLH]+tr[H^TLd(H)] \\ & = tr[H^TL^Td(H)]+tr[H^TLd(H)] \\ & = tr[H^T(L^T+L)dH] \\ \end{aligned}$
所以
$\frac{d y}{d H} = \frac{\partial H^TLH}{\partial H} = (L^T+L)^TH=(L+L^T)H$

五、链式法则求导

矩阵的链式法则详情求导见机器学习中的矩阵向量求导四

【参考文献】
[1] 刘建平.机器学习中的矩阵向量求导[一]
[2] 刘建平.机器学习中的矩阵向量求导[二]
[3] 刘建平.机器学习中的矩阵向量求导[三]
[4] 刘建平.机器学习中的矩阵向量求导[四]
[5] 矩阵求导术（上）[知乎]【排版真心不敢恭维】
[6] 矩阵求导术（下）[知乎]【排版真心不敢恭维】

SL_World

发布了126 篇原创文章 · 获赞 438 · 访问量 25万+

私信关注