雅可比行列式【1】定义及一些推导

最近在做应用多元统计的学习的时候再一次遇到了雅可比矩阵这个东西，发现完全想不起来这是什么东西，只记得学习高代和概率论的时候背过这个公式。学数学分析的时候也没有好好学习向量微积分的知识。今天跑步的时候想起一句话：”所有命运馈赠的礼物，其实早已标好了价格“。这个风格项式从英文翻译过来的，而我觉得将”价格“用”代价“一词来代替会更加合适。

一点一滴的积累都是有意义的，不知道何时就会用得上，所以一定要对知识充满敬畏之心。曾经靠侥幸度过的困难，将来一定会找到你，并且会让你付出更多不可预知的代价。

用标准流水账的方式，我们先来讨论雅可比矩阵从何而来，再来明确的定义它是什么，最后我们放出一些大家喜闻乐见的结论来结尾。

一、何为雅可比行列式

(例一)

我没记错的话，理工科的学生在高等数学2、数学分析2学习了一定的重积分之后，一定会遇到二重积分的被积函数中含有\(x^2+y^2\)时将直角坐标系转化为极坐标系会简化计算的结论，即：
\[ \int_b^a\int_c^df(x,y)dxdy=\int_\alpha^\beta d\theta\int_{r_1(\theta)}^{r_2(\theta)}f(r\cos{\theta},r\sin{\theta})rdr \]
这里其实就存在一个坐标变换的运算，而这个变换的行列式正式雅可比行列式：
\[ \iint f(x,y)dxdy=\iint f(x(u,v),y(u,v))\left|J(u,v)\right|dudv\\ |J(u,v)|=\left|\frac{\partial(x,y)}{\partial(u,v)} \right| \]
（例二）

同样，在多元统计分析中，如果度过我之前的文章的读者，一定会对我们通过服从标准正态分布的随机变量的线性组合来求一般多维正态随机向量联合概率密度函数的时候，关于\((x\to u)\)的变换印象深刻，即设\(X\sim N_p(\mu,\Sigma)，\Sigma>0\)，则：

由\(X=AU+\mu\),则\(J(x\to u)\)为：
\[ \begin{align} J(x\to u)&=\left[\frac{\partial x'}{\partial u}\right]_+\\ &= \left[ \begin{array}{ccc} \frac{\partial x_1}{\partial u_1}&\dots&\frac{\partial x_p}{\partial u_1}\\ \vdots&&\vdots\\ \frac{\partial x_1}{\partial u_p}&\dots&\frac{\partial x_p}{\partial u_p}\\ \end{array} \right]\\ &=|A'|_+\\ &=|AA'|^{1/2}=|\Sigma|^{1/2} \end{align} \]
因为\(\Sigma>0,rank(\Sigma)=p\)所以\(\exist A_{p\times p}\)为非奇异方阵，使得\(\Sigma=A'A\)并且满足\(X=AU+\mu\),其中\(U_i\)相互独立同\(N(0,1)\)分布,则
\[ \begin{align} f_X(x)=&\frac1{(2\pi)^{p/2}}exp\{-\frac12u'u\}J(u\to x)\\ =&\frac1{(2\pi)^{p/2}}exp\{-\frac12[A^{-1}(x-\mu)]'[A^{-1}(x-\mu)]\}\frac1{J(x\to u)}\\ =&\frac1{(2\pi)^{p/2}|\Sigma|^{1/2}}exp\{-\frac12(x-\mu)'\Sigma^{-1}(x-\mu)\} \end{align} \]

故：
\[ f(x)=\frac1{(2\pi)^{p/2}|\Sigma|^{1/2}}exp\{-\frac12(x-\mu)'\Sigma^{-1}(x-\mu)\} \]

综上所述，我们可以得出一个初步的认识，那就是对于二维的坐标，我们似乎可以通过雅可比行列式这个东西，对坐标进行一个变换，使之适应题目当前的状态，第二个例子理解起来是相对困难的，但却给了我们一个很好的启发，就是雅克比行列式可以推广到\(n\)维的情况，而且形式并没有变得很复杂。

于是顺着这个思维，我们首先引入一个新的概念，仿射变换。

1.2- 仿射变换

仿射变换（affine transformation）是一种我们很熟悉的变换：

设\(A_{n\times n}=(a_{ij})\),\(b=\mathbb{I_n}\otimes b_i，(i=1,2,\dots,n)\)，则定义于\(\R^n\)的仿射变换有如下形式：
\[ T(x)=Ax+b \]

在一元的情况下我们很容易发现，其实仿射变换就是一个\((x\to y)\)的变换。而且，仿射变换有一个极其重要的性质即： 任一直线经仿射变换的像仍是一直线，而且直线上各点之间的距离比例维持不变。（共线不变性，比例不变性）。

在此基础上我们假设存在一个映射,对于\(x=(x_1,\dots,x_n)'\)有：
\[ F:\R^n\to\R^m\rightrightarrows F(x)= \left[ \begin{array}{c} f_1(x_1,\dots,x_n)\\ \vdots\\ f_m(x_1,\dots,x_n) \end{array} \right] \]
由于对于每一个\(f_i:\R^n\to\R\),我们可以推广单变量时的线性拟合，即令\(T:\R^n\to\R^m\)为一个仿射变换，表示如下：
\[ T(x)=Ax+b \]
其中\(A_{m\times n},b\in\R^m\),则该矩阵即为雅可比 Jacobian 矩阵。

二、雅可比行列式的定义

2.1- 向量函数可导性

由上一节我们定义过一个仿射变换\(T(x)=Ax+b\)可以近似地表示\(F(x)\),即\(T(x)\to F(x_0)\ (x\to x_0)\),即：
\[ \begin{align} T(x)&=Ax+b\\ F(x_0)&=Ax_0+b\\ \therefore T(x)=&A(x-x_0)+F(x_0) \end{align} \]
若存在一个矩阵\(A\)使得仿射变换在某点最优近似于向量函数，那么下式应该成立：
\[ \lim_{x\to p}\frac{(F(x)-F(x_0))-A(x-x_0)}{||x-p||}=O \]
我们可以说\(F:\R^n\to\R^m\)在\(x_0\)可导。

若其在\(x_0\)点可导，那么\(A\)是由\(x_0\)唯一决定的，事实上，考虑\(\R^n\)的标准基\(\{e_1,\dots,e_n\}\),设\(h\)为一极小数:
\[ \lim_{h\to0}\frac{F(x_0+he_j)-F(x_0)-A(he_j)}{h}=0 \]
因为\(A(he_j)=h(Ae_j)\),则
\[ \begin{align} \lim_{h\to0}\frac{F(x_0+he_j)-F(x_0)}{h}&=Ae_j\\ 等号右边等于矩阵A的第j列,\frac{\partial F}{\partial x_j} &= \left( \begin{array}{c} \frac{\partial f_1}{\partial x_j}(x_0)\\ \frac{\partial f_2}{\partial x_j}(x_0)\\ \vdots\\ \frac{\partial f_m}{\partial x_j}(x_0) \end{array} \right) \end{align} \]
因此：
\[ A=\left[ \begin{array}{ccc} \frac{\partial f_1}{\partial x_1}(x_0)&\dots&\frac{\partial f_1}{\partial x_n}(x_0)\\ \vdots&&\vdots\\ \frac{\partial f_m}{\partial x_1}(x_0)&\dots&\frac{\partial f_m}{\partial x_n}(x_0)\\ \end{array} \right]_{m\times n} \]
这个矩阵即称为向量函数\(F\)在\(x_0\)的

Jacobian矩阵或导数矩阵(derivative matrix)，记为 \(J(x_0)\)。因此，可导函数\(F\)在\(x_0\)的最佳仿射近似是
\[ T(x)=F(x_0)+J(x_0)(x-x_0) \]
对于（例一）中极坐标与卡式坐标的转换：
\[ \begin{cases} x=r\cos{\theta}\\ y=r\sin{\theta} \end{cases} \]
于是：
\[ \begin{align} \frac{dx}{dt}= \left( \begin{array}{c} \frac{dx}{dt}\\ \frac{dy}{dt} \end{array} \right) =&\left( \begin{array}{c} \frac{\partial x}{\partial r}\frac{\partial r}{\partial t}+\frac{\partial x}{\partial \theta}\frac{\partial \theta}{\partial t}\\ \frac{\partial y}{\partial r}\frac{\partial r}{\partial t}+\frac{\partial y}{\partial \theta}\frac{\partial \theta}{\partial t} \end{array} \right)\\ =&\left( \begin{array}{cc} \frac{\partial x}{\partial r}&\frac{\partial x}{\partial \theta}\\ \frac{\partial y}{\partial r}&\frac{\partial y}{\partial \theta} \end{array} \right)\left( \begin{array}{c} \frac{dr}{dt}\\ \frac{d\theta}{dt} \end{array} \right)\\ =&J(r,\theta)\frac{du}{dt} \end{align} \]