机器学习中的矩阵求导的一点总结（三种方法求线性回归最佳参数）

在实际机器学习工作中，最常用的就是实值函数 y 对向量 x或矩阵 X 求导，比如最简单的线性回归问题中由目标函数 $dJ(w)$ 求解最佳参数向量 $w$ 。

矩阵/向量求导问题中要明确是什么量对什么量求导，得到的是什么形式的量
- 实值函数对向量求导，结果是同样维度和方向的向量
- 实值函数对矩阵求导，结果是同样维度的矩阵

本文以线性回归问题中由目标函数 $dJ(w)$ 求解最佳参数向量 $w$ 问题为例子，介绍个人总结的一点机器学习矩阵求导的的技巧和方法，其中包括：

1. 全微分与偏导数关系
2. 迹技巧
3. 常用的矩阵求导公式

一. 利用矩阵偏导数与微分的关系

1.1 实值函数对向量的微分

$df = \sum_{i=1}^n \frac{\partial f}{\partial x_i}dx_i = \frac{\partial f}{\partial \boldsymbol{x}}^T d\boldsymbol{x}$

1.2 实值函数对矩阵的微分

$df = \sum_{i=1}^m \sum_{j=1}^n \frac{\partial f}{\partial X_{ij}}dX_{ij} = \text{tr}\left(\frac{\partial f}{\partial X}^T dX\right)$

1.3 上面两个公式的应用

由上面的两个公式，若我们可以把标量函数f的全微分形式写出来，那么，对于实值函数对向量求导的类型，只需把全微分中dX前面的项求转置便可得到 $\frac{\partial f}{\partial X}$ 。
- 例子：线性回归
- d $J(w)$
  
  $= d (Xw-Y)^T(Xw-Y) + (Xw-Y)^Td(Xw-Y)$
  
  $=2(Xw-Y)^TXd{w}$ `
  
  $= (2*X^TXw - 2*X^TY )^Td{w}$
  
  因此， $\bigtriangledown_w J(w)= 2*X^TXw - 2*X^TY$
应用上面的的两个公式，可以证明一些矩阵求导的公式（见下面第三部分的例子）。
标量函数 f 是矩阵X经加减乘法、行列式、逆、逐元素函数等运算构成，因此我们需要掌握这些向量/矩阵微分的运算法则和迹的技巧。

1.4 运算法则

加减法： $d (X \pm Y) = d X \pm d Y$ $d(X\pm Y) = dX \pm dY$
矩阵乘法： $d (X Y) = d X Y + X d Y$ $d(XY) = dX Y + X dY$
转置： $d (X^{T}) = (d X)^{T}$ $d(X^T) = (dX)^T$
迹： $d tr (X) = tr (d X)$ $d\text{tr}(X) = \text{tr}(dX)$
逆： $d X^{- 1} = - X^{- 1} d X X^{- 1}$ $dX^{-1} = -X^{-1}dX X^{-1}$ 此式可在 $X X^{- 1} = I$ $XX^{-1}=I$ 两侧求微分来证明。

1.5 迹技巧

标量套上迹： $a = \text{tr}(a)$
转置： $\mathrm{tr}(A^T) = \mathrm{tr}(A)$
线性： $\text{tr}(A\pm B) = \text{tr}(A)\pm \text{tr}(B)$ 。
矩阵乘法交换： $\text{tr}(AB) = \text{tr}(BA)$

二用迹的性质简化矩阵求导问题。

性质1 $tr a = a, tr (aA) = a *tr A$ ，a为标量
性质2 $tr (A+B) = trA + trB$

性质3 $trAB = tr BA,tr ABC = tr CAB = tr BCA$

性质4 $tr A = tr A^T$

性质5 $\bigtriangledown_{A} tr (AB) = B^T$
性质6 $\bigtriangledown_{A} tr (ABA^TC) = CAB + C^TAB^T$

实例计算：使用迹的技巧求解线性回归的最佳参数。

$\bigtriangledown_{w} J(w) =\bigtriangledown_{w} tr J(w)$

$= \bigtriangledown_{w} tr(Xw-Y)^T(Xw-Y)$

$= \bigtriangledown_{w} tr(w^TX^TXw-Y^TXw-w^TX^TY +Y^TY)$

注：
- 这里应该明确的是J(w) 是两个向量的内积，因此为标量，可以应用性质1: tr a = a
- $\bigtriangledown_{w} J(w)$ 是标量J(w)对一个向量 w 求导，其结果是一个向量，维数和w向量相同。

$\bigtriangledown_{w} J(w) =\bigtriangledown_{w} tr J(w)$

$= \bigtriangledown_{w} tr(Xw-Y)^T(Xw-Y)$

$= \bigtriangledown_{w} tr(w^TX^TXw-Y^TXw-w^TX^TY +Y^TY)$

$= \bigtriangledown_{w} tr(w^TX^TXw)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

注：
- 这里应用 $Y^TY$ 与 w 无关
- 以及
$tr (A+B) = trA + trB$

$\bigtriangledown_{w} J(w) =\bigtriangledown_{w} tr J(w)$

$= \bigtriangledown_{w} tr(Xw-Y)^T(Xw-Y)$

$= \bigtriangledown_{w} tr(w^TX^TXw-Y^TXw-w^TX^TY +Y^TY)$

$= \bigtriangledown_{w} tr(w^TX^TXw)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

$= \bigtriangledown_{w} tr(ww^TX^TX)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

$= \bigtriangledown_{w} tr(ww^TX^TX)-2*\bigtriangledown_{w} tr(Y^TXw)$

注：
- 这里应用 $trAB = tr BA (A=w^TX^TX,B=w)$
- 以及 $tr A^T = trA (A= w^TX^TY)$

$\bigtriangledown_{w} J(w) =\bigtriangledown_{w} tr J(w)$

$= \bigtriangledown_{w} tr(Xw-Y)^T(Xw-Y)$

$= \bigtriangledown_{w} tr(w^TX^TXw-Y^TXw-w^TX^TY +Y^TY)$

$= \bigtriangledown_{w} tr(w^TX^TXw)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

$= \bigtriangledown_{w} tr(ww^TX^TX)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

$= \bigtriangledown_{w} tr(ww^TX^TX)-2*\bigtriangledown_{w} tr(Y^TXw)$

$= \bigtriangledown_{w} tr(wIw^TX^TX)-2*\bigtriangledown_{w} tr(Y^TXw)$

$= (X^TXwI+X^TXIw)-2*\bigtriangledown_{w} tr(Y^TXw)$

注：
- 这里应用
  $\bigtriangledown_{A} trABA^TC = CAB + C^T AB^T (A=w,C=X^TX,B=I),I 是 1 维单位矩阵$
- 以及 $tr A^T = trA (A= w^TX^TY)$

$\bigtriangledown_{w} J(w) =\bigtriangledown_{w} tr J(w)$

$= \bigtriangledown_{w} tr(Xw-Y)^T(Xw-Y)$

$= \bigtriangledown_{w} tr(w^TX^TXw-Y^TXw-w^TX^TY +Y^TY)$

$= \bigtriangledown_{w} tr(w^TX^TXw)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

$= \bigtriangledown_{w} tr(ww^TX^TX)-\bigtriangledown_{w} tr(Y^TXw)-\bigtriangledown_{w}tr(w^TX^TY)$

$= \bigtriangledown_{w} tr(ww^TX^TX)-2*\bigtriangledown_{w} tr(Y^TXw)$

$= \bigtriangledown_{w} tr(wIw^TX^TX)-2*\bigtriangledown_{w} tr(Y^TXw)$

$= (X^TXwI+X^TXIw)-2*\bigtriangledown_{w} tr(Y^TXw)$

$= 2*X^TXw-2* X^TYw$

注：
- 这里应用 $\bigtriangledown_{A} tra (AB) = B^T$

三. 机器学习中常用的矩阵求导

矩阵/向量求导问题中要明确是什么量对什么量求导，得到的是什么形式的量
- 实值函数对向量求导，结果是同样维度和方向的向量
- 实值函数对矩阵求导，结果是同样维度的矩阵
重要的矩阵求导公式：公式证明可以用微分分解加迹技巧证明。
- $\frac{\partial x^{T} A x}{\partial x} = (A^{T} + A) x$ $\frac{\partial x^TAx}{\partial x}= (A^T +A)x$
- $\frac{\partial x^{T} x}{\partial x} = 2 x$ $\frac{\partial x^Tx}{\partial x}= 2x$
- $\frac{\partial β^{T} x}{\partial x} = β$ $\frac{\partial \beta^Tx}{\partial x}= \beta$
- $\frac{\partial x^{T} β}{\partial x} = β$ $\frac{\partial x^T\beta}{\partial x}= \beta$
证明第一条公式：
$d{ (x^TAx)}= d(x^T )Ax+x^Td(Ax)$
$= (Ax)^Tdx+x^T(A^T)^Tdx$
$=(x^TA^T+x^TA)dx$
则：

$\frac{\partial x^{T} A x}{\partial x} = (x^{T} A^{T} + x^{T} A)^{T} = (A^{T} + A) x$ $\frac{\partial x^TAx}{\partial x}=(x^TA^T+x^TA)^T= (A^T +A)x$
例子：线性回归问题中由目标函数 $dJ(w)$ 求解最佳参数向量 $w$ 问题

$\bigtriangledown_{w} J(w)$

$= \bigtriangledown_{w} (Xw-Y)^T(Xw-Y)$

$= \bigtriangledown_{w} (w^TX^TXw-Y^TXw-w^TX^TY +Y^TY)$

$= \bigtriangledown_{w} (w^TX^TXw)-\bigtriangledown_{w} (Y^TXw)-\bigtriangledown_{w}(w^TX^TY)$

$= 2*X^TXw - X^TY - X^TY$

$= 2*X^TXw - 2*X^TY$
- 注：求导公式忘了可以用微分转换和迹技巧推导。