机器学习之矩阵微积分及其性质

版权声明:原创文章,转载请注明出处! https://blog.csdn.net/L_15156024189/article/details/84952633

leboop文章,禁止转载!

1、矩阵符号约定

(1)标量:使用普通小写字母表示,例如a,x,y

(2)列向量:使用加粗的小写字母来表示,比如\mathbf{a,x,y}等;

(3)行向量:使用列向量的转置表示,例如\mathbf{a}^{T}

(4)矩阵:使用加粗的大写字母表示,比如\mathbf{A},\mathbf{B},\mathbf{X},\mathbf{Y}等;

                    使用(\mathbf{A})_{ij}表示矩阵\mathbf{A}的第i行和第j列元素,也就是a_{ij},即(\mathbf{A})_{ij}=a_{ij}

                    使用(\mathbf{A})_{i,:}表示矩阵\mathbf{A}的第i行;

                    使用(\mathbf{A})_{:,j}表示矩阵\mathbf{A}的第j列;

(5)矩阵的:是指矩阵对角线上的元素之和,使用tr()来表示,例如tr(\mathbf{A})表示矩阵\mathbf{A}的对角线元素之和,当然只有行数和列数相同的的矩阵才有迹的概念;

(6)矩阵的行列式:使用|\mathbf{A}|来表示矩阵\mathbf{A}的行列式,当然也只有行数和列数相同的矩阵才有行列式的概念;

注:

标量、行向量和列向量都可以看成是矩阵的特殊情况,例如:

(1)对于一个标量x,可以看成是1\times 1阶的矩阵;

(2)对于n列的行向量\mathbf{a}^{T}=\begin{bmatrix} a_1 &... & a_n \end{bmatrix},可以看成是1\times n阶的矩阵;

(3)对于m行的列向量\mathbf{x}=\begin{bmatrix} x_1\\ \vdots\\ x_m \end{bmatrix},可以看成是m\times 1阶的矩阵。

同时标量又可以看成是行向量或列向量的特殊情况。

2、标量、向量和矩阵求导符号约定

矩阵求导中,自变量和因变量可以是标量、向量和矩阵中的一种,所以总共有3\times 3=9种可能性。如表格所示:

类型 标量(y 向量(\mathbf{y} 矩阵(\mathbf{Y}
标量(x \frac{\mathrm{dy} }{\mathrm{d} x} \frac{\partial \mathbf{y}}{\partial x} \frac{\partial \mathbf{Y}}{\partial x}
向量(\mathbf{x} \frac{\partial y}{\partial \mathbf{x}} \frac{\partial \mathbf{y}}{\partial \mathbf{x}}  
矩阵(\mathbf{X} \frac{\partial y}{\partial \mathbf{X}}    

其中当自变量和因变量都是标量时,就是我们最熟知的求导\frac{\mathrm{dy} }{\mathrm{d} x},其中y=y(x)x的函数,这里我们对这种情况不再讨论。表中我们还写出了其他5种求导情况,下面我们逐步讨论这5种求导情况。

假设xy是两个标量,

\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix}\mathbf{y}=\begin{bmatrix} y_{1}\\ \vdots\\ y_{m} \end{bmatrix}是两个向量,

\mathbf{X}=\begin{bmatrix} & x_{11}&... &x_{1q}\\ & \vdots& \vdots &\vdots\\ & x_{p1} & ...&x_{pq} & \end{bmatrix}\mathbf{Y}=\begin{bmatrix} & y_{11}&... &y_{1n}\\ & \vdots& \vdots &\vdots\\ & y_{m1} & ...&y_{mn} & \end{bmatrix}是两个矩阵,矩阵有时使用向量表述更方便,例如:

\mathbf{X}=\begin{bmatrix} \mathbf{x_1} &... &\mathbf{x_q} \end{bmatrix}\mathbf{Y}=\begin{bmatrix} \mathbf{y_1} &... &\mathbf{y_n} \end{bmatrix},其中

\mathbf{x}_j=\begin{bmatrix} x_{1j}\\ \vdots\\ x_{pj} \end{bmatrix}\; \; (1<=j<=q)表示矩阵\mathbf{X}的第j列,\mathbf{y}_k=\begin{bmatrix} y_{1k}\\ \vdots\\ y_{mk} \end{bmatrix}\; \; (1<=k<=n)表示矩阵\mathbf{Y}的第k列,

求导类型 \ 布局方式 分子布局 分母布局
标量-向量 \frac{\partial y}{\partial \mathbf{x}} = \left[ \frac{\partial y}{\partial x_1} \frac{\partial y}{\partial x_2} \cdots \frac{\partial y}{\partial x_n} \right]. \frac{\partial y}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y}{\partial x_1}\\ \frac{\partial y}{\partial x_2}\\ \vdots\\ \frac{\partial y}{\partial x_n}\\ \end{bmatrix}.
向量-标量 \frac{\partial \mathbf{y}}{\partial x} = \begin{bmatrix} \frac{\partial y_1}{\partial x}\\ \frac{\partial y_2}{\partial x}\\ \vdots\\ \frac{\partial y_m}{\partial x}\\ \end{bmatrix}. \frac{\partial \mathbf{y}}{\partial x} = \left[ \frac{\partial y_1}{\partial x} \frac{\partial y_2}{\partial x} \cdots \frac{\partial y_m}{\partial x} \right].
向量-向量 \frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n}\\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_n}\\ \end{bmatrix}. \frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_2}{\partial x_1} & \cdots & \frac{\partial y_m}{\partial x_1}\\ \frac{\partial y_1}{\partial x_2} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_2}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_1}{\partial x_n} & \frac{\partial y_2}{\partial x_n} & \cdots & \frac{\partial y_m}{\partial x_n}\\ \end{bmatrix}.
标量-矩阵 \frac{\partial y}{\partial \mathbf{X}} = \begin{bmatrix} \frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{21}} & \cdots & \frac{\partial y}{\partial x_{p1}}\\ \frac{\partial y}{\partial x_{12}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{p2}}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y}{\partial x_{1q}} & \frac{\partial y}{\partial x_{2q}} & \cdots & \frac{\partial y}{\partial x_{pq}}\\ \end{bmatrix}. \frac{\partial y}{\partial \mathbf{X}} = \begin{bmatrix} \frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{12}} & \cdots & \frac{\partial y}{\partial x_{1q}}\\ \frac{\partial y}{\partial x_{21}} & \frac{\partial y}{\partial x_{22}} & \cdots & \frac{\partial y}{\partial x_{2q}}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y}{\partial x_{p1}} & \frac{\partial y}{\partial x_{p2}} & \cdots & \frac{\partial y}{\partial x_{pq}}\\ \end{bmatrix}.
矩阵-标量 \frac{\partial \mathbf{Y}}{\partial x} = \begin{bmatrix} \frac{\partial y_{11}}{\partial x} & \frac{\partial y_{12}}{\partial x} & \cdots & \frac{\partial y_{1n}}{\partial x}\\ \frac{\partial y_{21}}{\partial x} & \frac{\partial y_{22}}{\partial x} & \cdots & \frac{\partial y_{2n}}{\partial x}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y_{m1}}{\partial x} & \frac{\partial y_{m2}}{\partial x} & \cdots & \frac{\partial y_{mn}}{\partial x}\\ \end{bmatrix}.                                  无约定

表中分子布局和分母布局只是两种不同的约定方式,并无多大区别。在做一些证明推导时需要约定其中的一种方式,有时也会同时约定两种方式,比如标量-向量约定分子布局方式,向量-标量可以约定分母布局方式,但对于同一种类型求导只能约定一种方式。为了不产生混淆,我建议在同一个环境下约定一种方式,本文我们约定分子布局方式。

布局方式记忆方法:

(1)分子布局:分子不动,分母转置后依次求导

(2)分母布局:分母不动,分子转置后依次求导

注意到,对于同一种类型的求导,分子布局和分母布局存在转置关系。

对于分子布局方式:

(1)向量-标量标量-向量求导约定都可以看成是向量-向量求导约定的特例,即

\frac{\partial \mathbf{y}}{\partial \mathbf{x}}=\begin{bmatrix} \frac{\partial y_1}{\partial \mathbf{x}}\\\vdots \\\frac{\partial y_m}{\partial \mathbf{x}} \end{bmatrix}=\begin{bmatrix} \frac{\partial \mathbf{y}}{\partial x_1} &... &\frac{\partial \mathbf{y}}{\partial x_n} \end{bmatrix}

(2)向量-标量求导约定可以看成是矩阵-标量求导约定的特例,即

\frac{\partial \mathbf{Y}}{\partial x}=\begin{bmatrix} \frac{\partial \mathbf{y_1}}{\partial x}&... &\frac{\partial \mathbf{y_n}}{\partial x} \end{bmatrix}

(3)标量-向量求导约定可以看成是标量-矩阵求导约定的特例,即

\frac{\partial y}{\partial \mathbf{X}}=\begin{bmatrix} \frac{\partial y}{\partial \mathbf{x_1}}\\\vdots \\\frac{\partial y}{\partial \mathbf{x_q}} \end{bmatrix}

特例的情况给了我们一些思路,向量-标量标量-向量求导的性质是不是可以看成是向量-向量求导或者标量-矩阵求导的特例呢?我们接下来就回答这个问题。

特别提醒:以下证明均约定是分子布局

3、向量-向量求导性质

原文地址

(1)假设\mathbf{a}=\begin{bmatrix} a_{1}\\ \vdots\\ a_{m} \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},如果\mathbf{a}不是\mathbf{x}的函数,则\frac{\partial \mathbf{a}}{\partial \mathbf{x}}=\mathbf{0}_{m\times n},其中\mathbf{0}_{m\times n}表示m\times n阶零矩阵(每个元素都是0)

证明:

\frac{\partial \mathbf{a}}{\partial \mathbf{x}}={\begin{bmatrix} & \frac{\partial a_1}{\partial x_{1}}&... &\frac{\partial a_1}{\partial x_{n}}\\ & \vdots& \vdots &\vdots\\ & \frac{\partial a_m}{\partial x_1} & ...&\frac{\partial a_m}{\partial x_n} & \end{bmatrix}}=\mathbf{0}_{m\times n}

(如果\mathbf{a}不是\mathbf{x}的函数,对这两个向量中的每个分量a_ix_j,都有\frac{\partial a_i}{\partial x_j}=0(1<=i<=m,1<=j<=n)

事实上,对于分母布局,\frac{\partial \mathbf{a}}{\partial \mathbf{x}}=\mathbf{0}_{n\times m}

注:这可以看成常数求导的扩展。

原文中认为分子布局和分母布局得到的是同一个结果,从我们的证明结果来看,并不是同一个结果,而是存在转置关系。

(2)假设\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},则\frac{\partial \mathbf{x}}{\partial \mathbf{x}}=\mathbf{I}_{n\times n},其中\mathbf{I}_{n\times n}表示n\times n阶单位矩阵(对角线元素为1,其余元素为0)

证明:

\frac{\partial \mathbf{x}}{\partial \mathbf{x}}={\begin{bmatrix} & \frac{\partial x_1}{\partial x_{1}}&... &\frac{\partial x_1}{\partial x_{n}}\\ & \vdots& \vdots &\vdots\\ & \frac{\partial x_n}{\partial x_1} & ...&\frac{\partial x_n}{\partial x_n} & \end{bmatrix}}=\mathbf{I}_{n\times n}

事实上,对于分母布局,这个结论也是成立的。

注:这条可以看成y=x对x求导的扩展

(3)假设\mathbf{A}=\begin{bmatrix} & a_{11}&... &a_{1p}\\ & \vdots& \vdots &\vdots\\ & a_{m1} & ...&a_{mp} & \end{bmatrix}\mathbf{u}=\mathbf{u}(\mathbf{x}),其中\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},且\mathbf{A}不是\mathbf{x}的函数,则\frac{\partial \mathbf{Au}}{\partial \mathbf{x}}=\mathbf{A}\frac{\partial \mathbf{u}}{\partial \mathbf{x}}

证明:假设

\mathbf{Au}=\begin{bmatrix} b_1\\ \vdots\\ b_m \end{bmatrix}

其中b_i=\sum\limit_{k=1}^{p}a_{ik}u_k\; (1=<i<=m)

(\frac{\partial \mathbf{Au}}{\partial \mathbf{x}})_{ij}=\frac{\partial b_i}{\partial x_j}=\sum\limits_{k=1}^{p}a_{ik}\frac{\partial u_k}{\partial x_j}        (1)

(\mathbf{A}\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{ij}=\mathbf{A}_{i,:}(\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{:,j}=\begin{bmatrix} a_{i1} &... &a_{ip} \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial x_j}\\ \vdots\\ \frac{\partial u_p}{\partial x_j} \end{bmatrix}=\sum\limits_{k=1}^{p}a_{ik}\frac{\partial u_k}{\partial x_j}         (2)

(1)式和(2)式相等,所以

\frac{\partial \mathbf{Au}}{\partial \mathbf{x}}=\mathbf{A}\frac{\partial \mathbf{u}}{\partial \mathbf{x}}.

特别地,如果\mathbf{u}=\mathbf{x},则有

\frac{\partial \mathbf{Ax}}{\partial \mathbf{x}}=\mathbf{A}\frac{\partial \mathbf{x}}{\partial \mathbf{x}}

再根据性质(2),有

\frac{\partial \mathbf{x}}{\partial \mathbf{x}}=\mathbf{I}

所以

\frac{\partial \mathbf{Ax}}{\partial \mathbf{x}}=\mathbf{AI}=\mathbf{A}

(4)假设\mathbf{B}=\begin{bmatrix} & b_{11}&... &b_{1m}\\ & \vdots& \vdots &\vdots\\ & b_{n1} & ...&b_{nm} & \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},且\mathbf{B}不是的\mathbf{x}的函数,则\frac{\partial \mathbf{x}^{T}\mathbf{B}}{\partial \mathbf{x}}=\mathbf{B}^{T}

证明:分子是行向量还是列向量,对结果是一样的,所以根据性质(3),有

\frac{\partial \mathbf{x}^{T}\mathbf{B}}{\partial \mathbf{x}}=\frac{\partial \mathbf{B}^{T}\mathbf{x}}{\partial \mathbf{x}}=\mathbf{B}^{T}

(5)假设标量a=a(\mathbf{x})和向量\mathbf{u}=\mathbf{u}(\mathbf{x}),其中\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},则\frac{\partial a\mathbf{u}}{\partial \mathbf{x}}=a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\mathbf{u}\frac{\partial a}{\partial \mathbf{x}}

证明:先搞清楚,这些符号代表什么,比如:a=a(\mathbf{x}),根据我们的符号约定,这是一个标量,而且是\mathbf{x}的函数,例如:

a={x_1}^2+{x_2}^2+...+{x_n}^2就是这样的一个标量;\mathbf{u}=\mathbf{u}(\mathbf{x})是一个向量,每个分量都是关于\mathbf{x}的函数。所以

(\frac{\partial a\mathbf{u}}{\partial \mathbf{x}})_{ij}=\frac{\partial au_i}{\partial x_j}=a\frac{\partial u_i}{\partial x_j}+u_i\frac{\partial a}{\partial x_j}                          (1)

(a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\mathbf{u}\frac{\partial a}{\partial \mathbf{x}})_{ij}=(a\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{ij}+(\mathbf{u}\frac{\partial a}{\partial \mathbf{x}})_{ij}=a\frac{\partial u_i}{\partial x_j}+(\begin{bmatrix} u_1 \\ \vdots \\ u_p \end{bmatrix}\begin{bmatrix} \frac{\partial a}{\partial x_1}&... &\frac{\partial a}{\partial x_n} \end{bmatrix})_{ij}\\ =a\frac{\partial u_i}{\partial x_j}+u_i\frac{\partial a}{\partial x_j}                       (2)

上面(1)式和(2)式相等,所以

\frac{\partial a\mathbf{u}}{\partial \mathbf{x}}=a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\mathbf{u}\frac{\partial a}{\partial \mathbf{x}}.

特别的,如果a不是\mathbf{x}的函数,则\frac{\partial a}{\partial \mathbf{x}}=\mathbf{0},则有:

\frac{\partial a\mathbf{u}}{\partial \mathbf{x}}=a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}

(6)假设\mathbf{u}=\mathbf{u}(\mathbf{x})\mathbf{v}=\mathbf{v}(\mathbf{x}),其中\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}\mathbf{v}=\begin{bmatrix} v_{1}\\ \vdots\\ v_{p} \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},则\frac{\partial \mathbf{(u+v)}}{\partial \mathbf{x}}=\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\frac{\partial \mathbf{v}}{\partial \mathbf{x}}

证明:

\mathbf{u+v}=\begin{bmatrix} u_{1}+v_1\\ \vdots\\ u_{p}+v_p \end{bmatrix},则

(\frac{\partial \mathbf{(u+v)}}{\partial \mathbf{x}})_{ij}=\frac{\partial \mathbf{(u+v)}_i}{\partial x_j}=\frac{\partial (u_i+v_i)}{\partial x_j}=\frac{\partial u_i}{\partial x_j}+\frac{\partial v_i}{\partial x_j}       (1)

(\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\frac{\partial \mathbf{v}}{\partial \mathbf{x}})_{ij}=(\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{ij}+(\frac{\partial \mathbf{v}}{\partial \mathbf{x}})_{ij}=\frac{\partial u_i}{\partial x_j}+\frac{\partial v_i}{\partial x_j}         (2)

(1)式和(2)式相等,所以

\frac{\partial \mathbf{(u+v)}}{\partial \mathbf{x}}=\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\frac{\partial \mathbf{v}}{\partial \mathbf{x}}

注:这条可以看成h(x)=f(x)+g(x)对x求导的扩展

(7)假设\mathbf{f}=\mathbf{f}(\mathbf{u})\mathbf{u}=\mathbf{u}(\mathbf{x}),其中\mathbf{f}=\begin{bmatrix} f_{1}\\ \vdots\\ f_{k} \end{bmatrix}\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},则\frac{\partial \mathbf{f(u(x))}}{\partial \mathbf{x}}=\frac{\partial \mathbf{f(u)}}{\partial \mathbf{u}}\frac{\partial \mathbf{u}}{\partial \mathbf{x}}

证明:

\mathbf{f}(\mathbf{u(x)})=\begin{bmatrix} f_1\\ \vdots\\ f_k \end{bmatrix}=\begin{bmatrix} f_1(u_1,u_2,...,u_p)\\ \vdots\\ f_k (u_1,u_2,...,u_p)\end{bmatrix}=\begin{bmatrix} f_1(u_1(x_1,x_2,...,x_n),u_2(x_1,x_2,...,x_n),...,u_p(x_1,x_2,...,x_n))\\ \vdots\\ f_k (u_1(x_1,x_2,...,x_n),u_2(x_1,x_2,...,x_n),...,u_p(x_1,x_2,...,x_n))\end{bmatrix}

(\frac{\partial \mathbf{f(u(x))}}{\partial \mathbf{x}})_{ij}=\frac{\partial f_i(u_1,u_2,...,u_p)}{\partial x_j}=\frac{\partial f_i}{\partial u_1}\frac{\partial u_1}{\partial x_j}+\frac{\partial f_i}{\partial u_1}\frac{\partial u_2}{\partial x_j}+...+\frac{\partial f_i}{\partial u_p}\frac{\partial u_p}{\partial x_j}                            (1)

(\frac{\partial \mathbf{f(u)}}{\partial \mathbf{u}}\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{ij}=(\frac{\partial \mathbf{f(u)}}{\partial \mathbf{u}})_{i,:}(\frac{\partial \mathbf{u}}{\partial \mathbf{x}})_{:,j}=\begin{bmatrix} \frac{\partial f_i}{\partial u_1}&... & \frac{\partial f_i}{\partial u_p} \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial x_j}\\ \vdots\\\frac{\partial u_p}{\partial x_j} \end{bmatrix}\\=\frac{\partial f_i}{\partial u_1}\frac{\partial u_1}{\partial x_j}+\frac{\partial f_i}{\partial u_1}\frac{\partial u_2}{\partial x_j}+...+\frac{\partial f_i}{\partial u_p}\frac{\partial u_p}{\partial x_j}                                                   (2)

(1)式和(2)式相等,所以

\frac{\partial \mathbf{f(u(x))}}{\partial \mathbf{x}}=\frac{\partial \mathbf{f(u)}}{\partial \mathbf{u}}\frac{\partial \mathbf{u}}{\partial \mathbf{x}}

注:这条可以看成是普通复合函数链式法则的扩展。

4、标量-向量求导

(1)假设a是标量,\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},如果a不是\mathbf{x}的函数,则\frac{\partial a}{\partial \mathbf{x}}=\mathbf{0}^T(这里\mathbf{0}n\times 1阶的零向量)

证明:由向量-向量的性质(1)中的\mathbf{a}=\begin{bmatrix} a_{1}\\ \vdots\\ a_{m} \end{bmatrix},取m=1,即得到这个结论。

(2)假设u=u(\mathbf{x})v=v(\mathbf{x}),其中\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},则\frac{\partial (u+v)}{\partial \mathbf{x}}=\frac{\partial u}{\partial \mathbf{x}}+\frac{\partial v}{\partial \mathbf{x}}

证明:由向量-向量求导的性质(6),取p=1,即得到结论。

(3)假设u=u(\mathbf{x})v=v(\mathbf{x})都是标量,\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},则\frac{\partial uv}{\partial \mathbf{x}}=u\frac{\partial v}{\partial \mathbf{x}}+v\frac{\partial u}{\partial \mathbf{x}}

证明:由向量-向量求导的性质(5),a=a(\mathbf{x})看成是u=u(\mathbf{x}),然后取p=1,性质(5)的结论

\frac{\partial a\mathbf{u}}{\partial \mathbf{x}}=a\frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\mathbf{u}\frac{\partial a}{\partial \mathbf{x}}

变为:

\frac{\partial uv}{\partial \mathbf{x}}=u\frac{\partial v}{\partial \mathbf{x}}+v\frac{\partial u}{\partial \mathbf{x}}

特别的,如果u不是\mathbf{x}的函数,有

\frac{\partial uv}{\partial \mathbf{x}}=u\frac{\partial v}{\partial \mathbf{x}}

(4)假设\mathbf{u}=\mathbf{u}(\mathbf{x})\mathbf{v}=\mathbf{v}(\mathbf{x}),其中\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}\mathbf{v}=\begin{bmatrix} v_{1}\\ \vdots\\ v_{p} \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},则\frac{\partial \mathbf{(u\cdot v)}}{\partial \mathbf{x}}=\mathbf{u}^T\frac{\partial \mathbf{v}}{\partial \mathbf{x}}+\mathbf{v}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x}},其中\mathbf{u\cdot v}表示两个向量的内积。

证明:

\mathbf{u\cdot v}=\mathbf{u}^T\mathbf{v}=\sum\limit_{i=1}^{p}u_iv_i

根据标量-向量求导性质(2)和(3)有

\frac{\partial \mathbf{(u\cdot v)}}{\partial \mathbf{x}}=\sum\limits_{i=1}^{p}\frac{\partial u_iv_i}{\partial \mathbf{x}}=\sum\limits_{i=1}^{p}(u_i\frac{\partial v_i}{\partial \mathbf{x}}+v_i\frac{\partial u_i}{\partial \mathbf{x}})=\sum\limits_{i=1}^{p}u_i\frac{\partial v_i}{\partial \mathbf{x}}+\sum\limits_{i=1}^{p}v_i\frac{\partial u_i}{\partial \mathbf{x}}\\ =\begin{bmatrix} u_1 &... &u_p \end{bmatrix}\begin{bmatrix} \frac{\partial v_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial v_p}{\partial \mathbf{x}} \end{bmatrix}+\begin{bmatrix} v_1 &... &v_p \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial u_p}{\partial \mathbf{x}} \end{bmatrix}

注意到\begin{bmatrix} \frac{\partial v_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial v_p}{\partial \mathbf{x}} \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial u_p}{\partial \mathbf{x}} \end{bmatrix}p\times n阶矩阵,所以

\begin{bmatrix} u_1 &... &u_p \end{bmatrix}\begin{bmatrix} \frac{\partial v_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial v_p}{\partial \mathbf{x}} \end{bmatrix}+\begin{bmatrix} v_1 &... &v_p \end{bmatrix}\begin{bmatrix} \frac{\partial u_1}{\partial \mathbf{x}}\\ \vdots\\ \frac{\partial u_p}{\partial \mathbf{x}} \end{bmatrix}=\mathbf{u}^T\frac{\partial \mathbf{v}}{\partial \mathbf{x}}+\mathbf{v}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x}}

(5)假设\mathbf{A}=\begin{bmatrix} & a_{11}&... &a_{1q}\\ & \vdots& \vdots &\vdots\\ & a_{p1} & ...&a_{pq} & \end{bmatrix}\mathbf{u}=\mathbf{u}(\mathbf{x})\mathbf{v}=\mathbf{v}(\mathbf{x}),其中\mathbf{u}=\begin{bmatrix} u_{1}\\ \vdots\\ u_{p} \end{bmatrix}\mathbf{v}=\begin{bmatrix} v_{1}\\ \vdots\\ v_{q} \end{bmatrix}\mathbf{x}=\begin{bmatrix} x_{1}\\ \vdots\\ x_{n} \end{bmatrix},且\mathbf{A}不是\mathbf{x}的函数,则

\frac{\partial \mathbf{(u\cdot Av)}}{\partial \mathbf{x}}=\mathbf{u}^T\mathbf{A}\frac{\partial \mathbf{v}}{\partial \mathbf{x}}+\mathbf{v}^T\mathbf{A}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x}}.

证明:根据标量-向量求导性质(4),得到

\frac{\partial \mathbf{(u\cdot Av)}}{\partial \mathbf{x}}=\mathbf{u}^T\frac{\partial \mathbf{Av}}{\partial \mathbf{x}}+\mathbf{(Av)}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x}},

再根据向量-向量求导性质(3),

\frac{\partial \mathbf{Av}}{\partial \mathbf{x}}=\mathbf{A}\frac{\partial \mathbf{v}}{\partial \mathbf{x}}

所以

\frac{\partial \mathbf{(u\cdot Av)}}{\partial \mathbf{x}}=\mathbf{u}^T\mathbf{A}\frac{\partial \mathbf{v}}{\partial \mathbf{x}}+\mathbf{v}^T\mathbf{A}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x}}

这条性质可以很多特殊的情况,

比如\mathbf{u}=\mathbf{v}=\mathbf{x}时,结论变为:

\frac{\partial \mathbf{(x\cdot Ax)}}{\partial \mathbf{x}}=\mathbf{x}^T\mathbf{A}\frac{\partial \mathbf{x}}{\partial \mathbf{x}}+\mathbf{x}^T\mathbf{A}^T\frac{\partial \mathbf{x}}{\partial \mathbf{x}}=\mathbf{x}^T(\mathbf{A}+\mathbf{A}^T)

5、向量-标量求导

证明比较简单,看成以上的特例即可。具体性质可参见原文地址

6、标量-矩阵求导

注意到矩阵的迹和行列式都是标量,而且这两个量对矩阵求导,都有很好的性质,关于标量-矩阵求导性质比较多,如图:

 

下面我们给出几个常用性质的证明,其他证明类似。

(1)

首先我们指出,这个写法是有些问题的,ab应该是向量,采用加粗小写字母,写成\mathbf{a}\mathbf{b}。其实很容易发现这个错误,从结论来看,两个标量的乘积应该是标量,而标量-矩阵求导是一个矩阵。所以这条性质正确表述如下:

假设\mathbf{a}^T=\begin{bmatrix} a_1 &... &a_p \end{bmatrix}\mathbf{X}=\begin{bmatrix} & x_{11}&... &x_{1q}\\ & \vdots& \vdots &\vdots\\ & x_{p1} & ...&x_{pq} & \end{bmatrix}\mathbf{b}=\begin{bmatrix} b_1\\ \vdots\\ b_q \end{bmatrix},则\frac{\partial \mathbf{a}^T\mathbf{Xb}}{\partial \mathbf{X}}=\mathbf{b}\mathbf{a}^T

根据标量-矩阵求导和标量-向量求导之间的关系:

\frac{\partial y}{\partial \mathbf{X}}=\begin{bmatrix} \frac{\partial y}{\partial \mathbf{x_1}}\\\vdots \\\frac{\partial y}{\partial \mathbf{x_q}} \end{bmatrix}

y=\mathbf{a}^T\mathbf{Xb},根据标量-向量性质(4),

\frac{\partial \mathbf{(u\cdot v)}}{\partial \mathbf{x}}=\mathbf{u}^T\frac{\partial \mathbf{v}}{\partial \mathbf{x}}+\mathbf{v}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x}}

我们有

\frac{\partial \mathbf{a}^T\mathbf{Xb}}{\partial \mathbf{X}}=\frac{\partial y}{\partial \mathbf{X}}=\begin{bmatrix} \frac{\partial y}{\partial \mathbf{x_1}}\\ \vdots\\ \frac{\partial y}{\partial \mathbf{x_q}} \end{bmatrix}=\begin{bmatrix} \frac{\partial \mathbf{a}\cdot \mathbf{Xb}}{\partial \mathbf{x_1}}\\ \vdots\\ \frac{\partial \mathbf{a}\cdot \mathbf{Xb}}{\partial \mathbf{x_q}} \end{bmatrix}=\begin{bmatrix} \mathbf{a}^T\frac{\partial \mathbf{Xb}}{\partial \mathbf{x_1}}\\ \vdots\\ \mathbf{a}^T\frac{\partial \mathbf{Xb}}{\partial \mathbf{x_q}} \end{bmatrix}

因为

\mathbf{Xb}=\sum\limit_{j=1}^{q}b_j\mathbf{x_j},所以

\mathbf{a}^T\frac{\partial \mathbf{Xb}}{\partial \mathbf{x_i}}=\mathbf{a}^T\sum_{j=1}^qb_j\frac{\partial \mathbf{x_j}}{\partial \mathbf{x_i}}=\mathbf{a}^Tb_iI_{p\times p}=b_i\mathbf{a}^T

\frac{\partial \mathbf{a}^T\mathbf{Xb}}{\partial \mathbf{X}}=\begin{bmatrix} b_1\mathbf{a}^T\\ \vdots\\ b_q\mathbf{a}^T \end{bmatrix}=\mathbf{ba}^T

(2)

y=\mathbf{a}^T\mathbf{X}^T\mathbf{b}

因为y的转置等于y

所以y=\mathbf{b}^T\mathbf{X}\mathbf{a}

由上一个性质,得到

\frac{\partial \mathbf{a}^T\mathbf{X}^T\mathbf{b}}{\partial \mathbf{X}}=\frac{\partial \mathbf{b}^T\mathbf{Xa}}{\partial \mathbf{X}}=\mathbf{a}\mathbf{b}^T

(3)

y=(\mathbf{Xa})^T\mathbf{C}(\mathbf{Xb})=\mathbf{a}^T\mathbf{X}^T\mathbf{C}\mathbf{Xb}=(\sum_{j=1}^qa_j\mathbf{x_j}^T)(\mathbf{C}\sum_{j=1}^qb_j\mathbf{x_j})

\mathbf{u}=\mathbf{Xa}\mathbf{v}=\mathbf{CXb}

​​​​​\mathbf{u}^T=\sum_{j=1}^qa_j\mathbf{x_j}^T

\mathbf{v}=\mathbf{C}\sum_{j=1}^qb_j\mathbf{x_j}

所以y=\mathbf{u}^T\mathbf{v}=\mathbf{u}\cdot \mathbf{v}

原式转化为

\frac{\partial y}{\partial \mathbf{X}}=\begin{bmatrix} \frac{\partial y}{\partial \mathbf{x_1}}\\\vdots \\\frac{\partial y}{\partial \mathbf{x_q}} \end{bmatrix}=\begin{bmatrix} \frac{\partial \mathbf{u}\cdot \mathbf{v}}{\partial \mathbf{x_1}}\\\vdots \\\frac{\partial \mathbf{u}\cdot \mathbf{v}}{\partial \mathbf{x_q}} \end{bmatrix}=\begin{bmatrix} \mathbf{u}^T\frac{\partial \mathbf{v}}{\partial \mathbf{x_1}}+\mathbf{v}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x_1}}\\\vdots \\\mathbf{u}^T\frac{\partial \mathbf{v}}{\partial \mathbf{x_q}}+\mathbf{v}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x_q}} \end{bmatrix}=\begin{bmatrix} \mathbf{u}^T\frac{\partial \mathbf{v}}{\partial \mathbf{x_1}}\\\vdots \\\mathbf{u}^T\frac{\partial \mathbf{v}}{\partial \mathbf{x_q}}\end{bmatrix}+\begin{bmatrix} \mathbf{v}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x_1}}\\\vdots \\\mathbf{v}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x_q}}\end{bmatrix}

因为

\begin{bmatrix} \mathbf{u}^T\frac{\partial \mathbf{v}}{\partial \mathbf{x_1}}\\\vdots \\\mathbf{u}^T\frac{\partial \mathbf{v}}{\partial \mathbf{x_q}}\end{bmatrix}=\begin{bmatrix} b_1\mathbf{u}^T\mathbf{C}\\\vdots \\b_q\mathbf{u}^T\mathbf{C}\end{bmatrix}=\mathbf{bu}^T\mathbf{C}=\mathbf{ba}^T\mathbf{X}^T\mathbf{C}

\begin{bmatrix} \mathbf{v}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x_1}}\\\vdots \\\mathbf{v}^T\frac{\partial \mathbf{u}}{\partial \mathbf{x_q}}\end{bmatrix}=\begin{bmatrix} a_1\mathbf{v}^T\\\vdots \\a_q\mathbf{v}^T\end{bmatrix}=\mathbf{av}^T=\mathbf{ab}^T\mathbf{X}^T\mathbf{C}^T

所以

\frac{\partial y}{\partial \mathbf{X}}=\mathbf{bu}^T\mathbf{C}=\mathbf{ba}^T\mathbf{X}^T\mathbf{C}+\mathbf{ab}^T\mathbf{X}^T\mathbf{C}^T

(4)

(\mathbf{Xa}+\mathbf{b})^T\mathbf{C}(\mathbf{Xa}+\mathbf{C}\boldsymbol{b})=(\mathbf{a}^T\mathbf{X}^T+\mathbf{b}^T)(\mathbf{C}\mathbf{Xa}+\boldsymbol{b})\\ =\mathbf{a}^T\mathbf{X}^T\mathbf{CXa}+\mathbf{a}^T\mathbf{X}^T\mathbf{b}+\mathbf{b}^T\mathbf{CXa}+\mathbf{b}^T\mathbf{b}

根据性质(1)和(3)就可以得到。
 

7、矩阵-标量求导

矩阵-标量求导也有很多比较好的性质,如图:

我们选择几条,给出证明。

(1)Kronecker积(克罗内克积)是两个任意大小的矩阵间的运算,表示为 ,被称为直积张量积。以德国数学家利奥波德·克罗内克命名。计算过程如下例所示:

(2)\cicl表中的空心圆圈\circ表示Hadamard乘积,也就是两个矩阵对应元素乘积

(\mathbf{U}\circ \mathbf{V})_{ij}=u_{ij}v_{ij}

有些地方用*表示,例如\mathbf{U}* \mathbf{V}

例如

(3)

因为:

e^x=\sum_{m=0}^\infty \frac{1}{m!}x^me^{x\mathbf{A}}=\sum_{m=0}^\infty \frac{x^m}{m!}\mathbf{A}^m

所以结论成立。

8、矩阵-矩阵求导

我们将矩阵-矩阵求导放在最后讨论,是因为关于矩阵-矩阵求导约定还存在一些争议,如果你有比较好的约定,并能推导出一些非常好的结论,并能扩展以上5种求导情形,你的约定一定是完美的!

留心的读者已经注意到在上面的表中有三种情况是空白的:矩阵-向量、向量-矩阵和矩阵-矩阵。这三种情况没有统一的符号和应用,这里给出一种约定。鉴于矩阵-向量和向量-矩阵求导可以看成是矩阵-矩阵的特殊情况,下面只给出矩阵-矩阵求导约定。

假设\mathbf{F}m\times n阶矩阵:

\mathbf{F}=\begin{bmatrix} & f_{11}&... &f_{1n}\\ & \vdots& \vdots &\vdots\\ & f_{m1} & ...&f_{mn} & \end{bmatrix}

\mathbf{X}p\times q阶矩阵:

\mathbf{X}=\begin{bmatrix} & x_{11}&... &x_{1q}\\ & \vdots& \vdots &\vdots\\ & x_{p1} & ...&x_{pq} & \end{bmatrix}

其中f_{ij}=f(x_{11},x_{12},...,x_{1q},...,x_{p1},x_{p2},...,x_{pq})

\frac{\partial \mathbf{F}}{\partial \mathbf{X}}=\begin{bmatrix} & \frac{\partial \mathbf{F}}{\partial x_{11}}&... &\frac{\partial \mathbf{F}}{\partial x_{p1}}\\ & \vdots& \vdots &\vdots\\ & \frac{\partial \mathbf{F}}{\partial x_{1q}} & ...&\frac{\partial \mathbf{F}}{\partial x_{pq}} & \end{bmatrix}

其中每一个\frac{\partial \mathbf{F}}{\partial x_{ij}}都是m\times n阶矩阵,\frac{\partial \mathbf{F}}{\partial \mathbf{X}}是一个mq\times np阶矩阵。

猜你喜欢

转载自blog.csdn.net/L_15156024189/article/details/84952633