标量、向量、矩阵之间求导笔记

2019.12.06--------------------------------------------------------------------------------------------------------------

今天，碰到了下面有关向量对于向量的导数，不太明白为什么最后得到的是A的转置。
$\frac{ \mathrm{d}Ax}{\mathrm{d}x} = A^T$
上式中， $A_{m\times n}$ 与 $x_{n\times 1}$ 无关， $x$ 为一个列向量，则 $A x$ 也为一个列向量。（一般所说的向量都写成列向量形式）按照矩阵微分中的规定，求的是行向量对于列向量的导数，得到的结果是一个矩阵。下面根据雅克比矩阵的定义，来看行向量对于列向量的导数。
$f(x) = [f_1(x) , f_2(x) , ... , f_m(x)]^T, x = [x_1,x_2,...,x_n]^T$
$\frac{\mathrm{d}f^T}{\mathrm{d}x} = \frac{\mathrm{d} [f_1 , f_2 , ... , f_m]_{1\times m}}{\mathrm{d} \begin{bmatrix}x_1 \\ x_2 \\ ... \\ x_n \end{bmatrix}_{n\times 1} } =\begin{bmatrix} \frac{\mathrm{d}f_1}{\mathrm{d}x_1} & \frac{\mathrm{d}f_2}{\mathrm{d}x_1} & \dots & \frac{\mathrm{d}f_m}{\mathrm{d}x_1} \\ \frac{\mathrm{d}f_1}{\mathrm{d}x_2} & \frac{\mathrm{d}f_2}{\mathrm{d}x_2} &\dots& \frac{\mathrm{d}f_m}{\mathrm{d}x_2} \\ \vdots& \vdots & \ddots &\vdots\\ \frac{\mathrm{d}f_1}{\mathrm{d}x_n} & \frac{\mathrm{d}f_2}{\mathrm{d}x_n} & \dots & \frac{\mathrm{d}f_m}{\mathrm{d}x_n} \end{bmatrix} _{n\times m} = J$
可以看出，分母有几行， $J$ 就有几行；分子有几列， $J$ 就有几列。列向量对列向量求导是这么定义的：先对分子转置，再对最后结果进行转置。
$\frac{\mathrm{d}f}{\mathrm{d}x} =\Big( \frac{\mathrm{d}f^T}{\mathrm{d}x} \Big) ^T = J^T$
现在，再来看最上面的公式
~~$\frac{ \mathrm{d}Ax}{\mathrm{d}x} = \Big(\frac{ \mathrm{d}(Ax)^T}{\mathrm{d}x} \Big)^T= \Big(\frac{ \mathrm{d}x^T}{\mathrm{d}x} A^T \Big)^T = \Big(I A^T \Big)^T = A ？？$~~
嗯…，上面的结果似乎与预期不符合。在对分子转置应该不包括常量，可以在转置之前先把常量提出来，下面的结果就是符合预期的结果了。
$\frac{ \mathrm{d}Ax}{\mathrm{d}x} = \Big(\frac{ A \mathrm{d}(x)^T}{\mathrm{d}x} \Big)^T= \Big(A I\Big)^T = A^T$
还有下面这样的形式，感觉可以把分母的转置传递给分子。（根据结论，猜的，不过分母是行向量这种情况有点奇葩，应该也不会这么去定义吧。）
$\frac{ \mathrm{d}Ax}{\mathrm{d}x^T} = \frac{ A \mathrm{d}(x)^T}{\mathrm{d}x}= A I = A$
总结：个人认为，向量对于向量的导数其实主要还是看计算规则，统一了规则后，就能放心地使用公式了。（可能会有格式各样的规定，所以在推导的过程中选择一个规则，不能弄混了）

标量、向量、矩阵之间求导笔记

猜你喜欢