最小二乘法数学原理推导

问题定义

\begin{matrix} (1) & A x = b \end{matrix}

$Ax=b \tag{1}$
在实际问题中，该方程组可能不存在真正的解，这时我们就希望可以求解它的一个近似解

x^{*}

$x^*$ ，使得其能尽可能地接近 (1) 的真正解，其中

A \in R^{k \times n}, b \in R^{k}

$A \in R^{k×n}, b \in R^k$ 是已知的，而

x \in R^{n}

$x \in R^n$ 是未知量。 注意，这里假定 $k \geq n$ 且 $A^TA \in R^{n×n}$ 是可逆的。
在数学上，已经给出这类问题的解了：

x^{*} = (A^{T} A)^{- 1} A^{T} b

$x^*=(A^TA)^{-1}A^Tb$ 。
下面就来简单的推导下该解的由来：

\begin{matrix} (2) & \underset{x}{\arg min} A x \approx b \Rightarrow \underset{x}{\arg min} f (x) = ‖ A x - b ‖^{2} \end{matrix}

$\mathop{\arg\min}_x{Ax \approx b} \Rightarrow \mathop{\arg\min}_x{f(x)=\|Ax-b\|^2} \tag{2}$
对于 (2) 式，将其展开：

\begin{matrix} (3) & \begin{aligned} f (x) & = ‖ A x - b ‖^{2} \\ = (A x - b)^{T} (A x - b) \\ = (x^{T} A^{T} - b^{T}) (A x - b) \\ = x^{T} A^{T} A x - x^{T} A^{T} b - b^{T} A x + b^{T} b \\ = x^{T} A^{T} A x - 2 b^{T} A x + b^{T} b \\ = \underset{y^{T}}{\underset{⏟}{x^{T} (A^{T} A)^{1 / 2}}} \underset{y}{\underset{⏟}{(A^{T} A)^{1 / 2} x}} - 2 b^{T} A (A^{T} A)^{- 1 / 2} \underset{y}{\underset{⏟}{(A^{T} A)^{1 / 2} x}} + b^{T} b \\ = y^{T} y - 2 b^{T} A (A^{T} A)^{- 1 / 2} y + b^{T} b \\ = y^{T} y - 2 {((A^{T} A)^{- 1 / 2} A^{T} b)}^{T} y + {((A^{T} A)^{- 1 / 2} A^{T} b)}^{T} ((A^{T} A)^{- 1 / 2} A^{T} b) + \underset{d}{\underset{⏟}{b^{T} b - {((A^{T} A)^{- 1 / 2} A^{T} b)}^{T} ((A^{T} A)^{- 1 / 2} A^{T} b)}} \\ = {(y - (A^{T} A)^{- 1 / 2} A^{T} b)}^{T} (y - (A^{T} A)^{- 1 / 2} A^{T} b) + d \\ = {‖ y - (A^{T} A)^{- 1 / 2} A^{T} b ‖}^{2} + d \end{aligned} \end{matrix}

$\begin{split} f(x) &= \|Ax - b\|^2 \\ &= (Ax - b)^T (Ax - b) \\ &= (x^TA^T - b^T) (Ax - b) \\ &= x^TA^TAx - x^TA^Tb - b^TAx + b^Tb \\ &= x^TA^TAx - 2b^TAx + b^Tb \\ &= \underbrace{x^T(A^TA)^{1/2}}_{y^T} \underbrace{(A^TA)^{1/2}x}_y - 2b^TA(A^TA)^{-1/2} \underbrace{(A^TA)^{1/2}x}_y + b^Tb \\ &= y^T y - 2 b^T A (A^T A)^{-1/2} y + b^T b \\ &= y^Ty - 2 \left((A^T A)^{-1/2}A^T b\right)^T y + \left((A^T A)^{-1/2}A^T b\right)^T \left((A^T A)^{-1/2}A^T b\right) + \underbrace{b^Tb - \left((A^T A)^{-1/2}A^T b\right)^T \left((A^T A)^{-1/2}A^T b\right)}_d \\ &= \left(y - (A^T A)^{-1/2} A^T b\right)^T \left(y - (A^T A)^{-1/2} A^T b\right) + d \\ &= \left\|y - (A^T A)^{-1/2} A^T b\right\|^2 + d \end{split} \tag{3}$
通过 (3) 式可知，当

y = (A^{T} A)^{- 1 / 2} A^{T} b

$y=(A^T A)^{-1/2} A^T b$ 时，

f (x)

$f(x)$ 取得最小值

d

$d$ ：

\begin{matrix} (4) & \begin{aligned} y = (A^{T} A)^{- 1 / 2} A^{T} b \\ \Rightarrow & (A^{T} A)^{1 / 2} x = (A^{T} A)^{- 1 / 2} A^{T} b \\ \Rightarrow & x = (A^{T} A)^{- 1} A^{T} b \end{aligned} \end{matrix}

$\begin{split} &y=(A^T A)^{-1/2} A^T b \\ \Rightarrow &(A^TA)^{1/2}x= (A^T A)^{-1/2} A^T b \\ \Rightarrow &x = (A^T A)^{-1} A^T b \end{split} \tag{4}$
即当

x = (A^{T} A)^{- 1} A^{T} b

$x = (A^T A)^{-1} A^T b$ 时，

f (x)

$f(x)$ 取最小值

d

$d$ 。所以

x = (A^{T} A)^{- 1} A^{T} b

$x = (A^T A)^{-1} A^T b$ 是式 (1) 的最近解。

最小二乘法数学原理推导

问题定义

猜你喜欢