[模式识别] [讲义] 最小均方差（LMS, Least Mean Square）：梯度下降、随机梯度下降、正规方程组、牛顿法、坐标下降

即求 $min \dfrac{1}{2} \sum_{i=1}^{m} (x_{j}^{(i)} - y^{(i)})^{2} = min J$ ，

其中 $x_{j}^{(i)}$ 表示第 $i$ 个样本的第 $j$ 维，有以下几种方法：

1. 梯度下降法（gradient descent）——batch

参数更新规则为 $\theta_{k+1} = \theta_{k} - \alpha \nabla_{\theta} J(\theta)_{k}$

因为

h (x) = \sum_{i = 0}^{n} θ_{i} x_{i} (x_{0} = 1)

$h(x) = \sum_{i=0}^{n} \theta_{i} x_{i} (x_{0} = 1)$

\nabla_{θ} J (θ) = [\frac{\partial J}{\partial θ_{0}} . . . \frac{\partial J}{\partial θ_{j}} . . . \frac{\partial J}{\partial θ_{n}}]^{T}

$\nabla_{\theta} J(\theta) = [ \frac{\partial J} {\partial \theta_{0}}... \frac{\partial J} {\partial \theta_{j}}...\frac{\partial J} {\partial \theta_{n}} ] ^{T}$

所以，

\begin{aligned} \frac{\partial J}{\partial θ_{j}} & = \frac{1}{2} \sum_{i = 1}^{m} 2 \cdot (\sum_{k} θ_{k} x_{k}^{(i)} - y^{(i)}) \cdot x_{j}^{(i)} \\ = \sum_{i = 1}^{m} (h (x^{(i)}) - y^{(i)})) \cdot x_{j}^{(i)} \end{aligned}

$\begin{split} \dfrac{\partial J} {\partial \theta_{j}} & = \dfrac{1}{2} \sum_{i=1}^{m} 2\cdot (\sum _{k} \theta_k x_k^{(i)} - y^{(i)})\cdot x_{j}^{(i)}\\ & = \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)}))\cdot x_j^{(i)} \end{split}$

最终得到对于每一个 $j$ 的更新规则：

θ_{j} = θ_{j} - α \sum_{i = 1}^{m} (h (x^{(i)}) - y^{(i)})) \cdot x_{j}^{(i)}

$\theta_{j} = \theta_{j} - \alpha \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)}))\cdot x_j^{(i)}$

* 每更新一次要遍历所有样本

2. 随机梯度下降法（SGD, stochastic gradient descent）

\begin{aligned} L o o p & { \\ f o r i = 1 t o m { \\ θ_{j} = θ_{j} - α (h (x^{(i)}) - y^{(i)})) \cdot x_{j}^{(i)} (f o r a l l j) \\ } \\ } \end{aligned}

$\begin{split} Loop &\{\\ & for\; i = 1 \;to\; m \;\{\\ & \;\;\;\; \theta_j = \theta_j - \alpha (h(x^{(i)}) - y^{(i)}))\cdot x_j^{(i)} \;(for\;all\;j) \\ &\} \\ \} \end{split}$

* 不用每更新一次遍历所有样本
* 不会精确收敛到全局最小值

3. 正规方程组（Normal Equation）

记 $X = \begin{bmatrix} (x^{(1)})^T \\ ... \\ (x^{(m)})^T \end{bmatrix}$ , $\overrightarrow{y} = \begin{bmatrix} (y^{(1)}) \\ ... \\ (y^{(m)}) \end{bmatrix}$ ,

$X\overrightarrow{\theta} = \begin{bmatrix} (x^{(1)})^T\theta \\ ... \\ (x^{(m)})^T\theta \end{bmatrix} = \begin{bmatrix}h_{\theta}(x^{(1)})\\...\\h_{\theta}(x^{(m)})\end{bmatrix}$

所以：

J (θ) = \frac{1}{2} (X \vec{θ} - \vec{y})^{T} (X \vec{θ} - \vec{y})

$J(\theta) = \dfrac{1}{2} (X\overrightarrow{\theta} - \overrightarrow{y})^T(X\overrightarrow{\theta} - \overrightarrow{y})\\$

\begin{aligned} \nabla_{θ} J (θ) & = \nabla_{θ} \frac{1}{2} (X \vec{θ} - \vec{y})^{T} (X \vec{θ} - \vec{y}) \\ = \nabla_{θ} \frac{1}{2} (θ^{T} X^{T} X θ - θ^{T} X^{T} y - y^{T} X θ + y^{T} y) \end{aligned}

$\begin{split} \nabla_\theta J(\theta) & = \nabla_\theta \frac{1}{2} (X\overrightarrow{\theta} - \overrightarrow{y})^T(X\overrightarrow{\theta} - \overrightarrow{y}) \\ \\ & = \nabla_\theta \frac{1}{2} (\theta^T X^TX\theta - \theta^TX^Ty - y^TX\theta + y^Ty) \end{split}$

因为

(X θ)^{T} y = y^{T} X θ, \frac{\partial}{\partial θ} θ^{T} A θ = 2 A θ, \frac{\partial}{\partial θ} α^{T} θ = α

$(X\theta)^Ty = y^TX\theta,\;\; \frac{\partial}{\partial\theta}\theta^TA\theta = 2A\theta,\;\; \frac{\partial}{\partial\theta}\alpha^T\theta = \alpha$

所以

\nabla_{θ} J (θ) = X^{T} X θ - X^{T} y

$\nabla_\theta J(\theta) = X^TX\theta - X^Ty$

令 $\nabla_\theta J(\theta) = 0$ 得到：

X^{T} X θ = X^{T} y

$X^TX\theta = X^Ty$

若方程可解，得

θ = (X^{T} X)^{- 1} \cdot X^{T} y

$\theta = (X^TX)^{-1}\cdot X^Ty$ 即最小二乘解

* 不用多次迭代
* 但当特征参数很大时，计算量很大，很慢

最小二乘法的目的实际上是假设误差项满足高斯分布且独立同分布的条件下，使似然最大化

4. 牛顿法

当要找 $f(x) = 0$ 的解时，在函数图像上随机一点处做切线，与x轴交点作为下一个点，逼近求解：

f^{'} (x_{k}) = \frac{f (x_{k}) - 0}{x_{k} - x_{k + 1}}

$f'(x_k) = \frac{f(x_k) - 0}{x_k - x_{k+1}}$

所以，要 $min\; f(x)$ ，即找 $f'(x) = 0$ ，所以更新规则为：

\vec{x_{k + 1}} = \vec{x_{k}} - [f^{″} (\vec{x_{k}})]^{- 1} \cdot f^{'} (\vec{x_{k}})

$\overrightarrow{x_{k+1}} = \overrightarrow{ x_k} - [f''( \overrightarrow{x_k})]^{-1} \cdot f'( \overrightarrow{x_k})$

* 比梯度下降更快收敛
* 但当特征参数很大时，计算量很大，很慢

Hession matrix $f''(\overrightarrow{x})$ 是一个半正定矩阵，计算量很大，可以通过一个正定矩阵B来代替它——> 拟牛顿法

5. 坐标下降法

求 $min_{x_1,...,x_n} \; f(x_1, x_2,...,x_n)$ ，一次优化一个 $x$ :

\begin{aligned} f o r & t = 1 t o n \\ m i n_{x_{t}} f (x_{1}, . . ., x_{t}, . . ., x_{n}) \\ e n d \end{aligned}

$\begin{split} for\; & t= 1\; to\; n\\ & min_{x_t} \; f(x_1,..., x_t,...,x_n)\\ end \end{split}$

* 迭代次数较多，代价较小