共轭梯度算法

介绍

在数值线性代数中，共轭梯度算法是一种求解对称正定线性方程组 $Ax=b$ 的迭代方法。

事实上，求解 $Ax=b$ 等价于求解 $min\ \frac{1}{2}x^TAx+b^Tx$ ，于是解方程问题就转化为了求解二次规划问题(QP)。

共轭梯度算法是介于梯度下降与牛顿法之间的一个方法，是一个一阶方法。它克服了梯度下降法收敛慢的缺点，又避免了存储和计算牛顿法所需要的二阶导数信息。

在 $n$ 维的优化问题中，共轭梯度法最多 $n$ 次迭代就能找到最优解（是找到，不是接近），但是只针对二次规划问题。

共轭梯度算法的思想就是找到 $n$ 个两两共轭的共轭方向，每次沿着一个方向优化得到该方向上的极小值，后面再沿着其它方向求解极小值的时候，不会影响前面已经得到的沿那些方向上的极小值，所以理论上对 $n$ 个方向都求解出极小值就能得到 $n$ 维问题的极小值。

算法推到过程

目标函数：

m i n \frac{1}{2} x^{T} A x + b^{T} x

$min\ \frac{1}{2}x^TAx+b^Tx$
其中

A

$A$ 为对称正定矩阵。

如果已经有 $n$ 个关于 $A$ 共轭的基向量 $p_0,p_1,\dots,p_{n-1}$ ，它们相互共轭（即 $<p_i,p_j>=p_i^TAp_j=0,i\neq j$ ）且线性无关。因此有 $\forall x\in R^n$ ，有 $x=\sum_{i=0}^{n-1}a_ip_i$

目标函数可以改写为：

\begin{array}{rcl} \underset{a_{0}, \dots, a_{n - 1}}{m i n} \frac{1}{2} (\sum_{i = 0}^{n - 1} a_{i} p_{i})^{T} A (\sum_{j = 0}^{n - 1} a_{j} p_{j}) - b^{T} (\sum_{i = 0}^{n - 1} a_{i} p_{i}) \\ = & \underset{a_{0}, \dots, a_{n - 1}}{m i n} \frac{1}{2} \sum_{i = 1}^{n - 1} \sum_{j = 1}^{n - 1} a_{i} a_{j} p_{i}^{T} A p_{j} - \sum_{i = 0}^{n - 1} a_{i} b^{T} p_{i} \\ = & \underset{a_{0}, \dots, a_{n - 1}}{m i n} \frac{1}{2} \sum_{i = 0}^{n - 1} (a_{i}^{2} p_{i}^{T} A p_{i} - a_{i} b^{T} p_{i}) \end{array}

$\begin{eqnarray*} &&\mathop{min}_{a_0,\dots,a_{n-1}} \frac{1}{2}(\sum_{i=0}^{n-1}a_ip_i)^TA(\sum_{j=0}^{n-1}a_jp_j)-b^T(\sum_{i=0}^{n-1}a_ip_i) \\ &=& \mathop{min}_{a_0,\dots,a_{n-1}}\frac{1}{2}\sum_{i=1}^{n-1}\sum_{j=1}^{n-1}a_ia_jp_i^TAp_j-\sum_{i=0}^{n-1}a_ib^Tp_i \\ &=& \mathop{min}_{a_0,\dots,a_{n-1}}\frac{1}{2}\sum_{i=0}^{n-1}(a_i^2p_i^TAp_i-a_ib^Tp_i) \end{eqnarray*}$
由于上式中各个部分独立，于是等价于优化问题：

\underset{a_{i}}{m i n} \frac{1}{2} a_{i}^{2} p_{i}^{T} A p_{i} - a_{i} b^{T} p_{i} i = 0, 1, \dots, n - 1

$\mathop{min}_{a_i}\ \frac{1}{2}a_i^2p_i^TAp_i-a_ib^Tp_i \quad i=0,1,\dots,n-1$
求解可得：

a_{i} = \frac{b^{T} p_{i}}{p_{i}^{T} A p_{i}}

$a_i=\frac{b^Tp_i}{p_i^TAp_i}$
所以给定

p_{0}, p_{1}, \dots, p_{n - 1}

$p_0,p_1,\dots,p_{n-1}$ 就可以计算优化问题的解

x = \sum_{i = 0}^{n - 1} \frac{b^{T} p_{i}}{p_{i}^{T} A p_{i}} p_{i}

$x=\sum_{i=0}^{n-1}\frac{b^Tp_i}{p_i^TAp_i}p_i$ ，即为原线性方程组的解。

接下来的问题就是如何得到 $p_0,p_1,\dots,p_{n-1}$ ，这可以通过Gram-Schmit算法从一组线性无关向量 $r_0,r_1,\dots,r_{n-1}$ 得到。

于是需要解决下面两个问题：

如何构造一组线性无关向量 $r_0,r_1,\dots,r_{n-1}$
如何由 $r_0,r_1,\dots,r_{n-1}$ 计算 $p_0,p_1,\dots,p_{n-1}$

如何构造一组线性无关向量 $r_0,r_1,\dots,r_{n-1}$

做如下构造：

r_{i} = b - A x_{i} x_{i} = \sum_{k < i} a_{k} p_{k} i = 0, 1, \dots, n - 1

$r_i=b-Ax_i \quad x_i=\sum_{k<i}a_kp_k \quad i=0,1,\dots,n-1$
其中

x_{0} = 0

$x_0=0$ ，

x_{n} = \sum_{k < n} a_{k} p_{k}

$x_n=\sum_{k<n}a_kp_k$ 为优化问题的解

下证 $r_0,r_1,\dots,r_{n-1}$ 线性无关：

不妨设 $r_i\neq0,i=0,1,\dots,n-1$ ，否则若 $r_i=b-Ax_i=0$ ，则 $x_i$ 为优化问题解。用数学归纳法证明

$r_0\neq0$ ，所以 $r_0$ 本身线性无关
当 $r_0,r_1,\dots,r_i$ 线性无关，注意到

r_{i + 1} = b - A x_{i + 1} = b - A (x_{i} + a_{i} p_{i}) = r_{i} - a_{i} A p_{i}

$r_{i+1}=b-Ax_{i+1}=b-A(x_i+a_ip_i)=r_i-a_iAp_i$

于是有

r_{i + 1} = r_{i} - a_{i} A p_{i} = r_{i - 1} - a_{i - 1} A p_{i - 1} - a_{i} A p_{i} = \dots = r_{0} - \sum_{k = 0}^{i} a_{k} A p_{k}

$r_{i+1}=r_i-a_iAp_i=r_{i-1}-a_{i-1}Ap_{i-1}-a_iAp_i=\cdots=r_0-\sum_{k=0}^{i}a_kAp_k$
上式两边和

p_{k}, k < i + 1 ​

$p_k,k<i+1$ 做内积有

p_{k}^{T} r_{i + 1} = p_{k}^{T} r_{0} - a p_{k}^{T} A p_{k} = p_{k}^{T} b - b^{T} p_{k} = 0

$p_k^Tr_{i+1}=p_k^Tr_0-ap_k^TAp_k=p_k^Tb-b^Tp_k=0$
故可知

r_{i + 1} ⊥ s p a n {p_{0}, p_{1}, \dots, p_{i}}

$r_{i+1}\perp span\{p_0,p_1,\dots,p_i\}$

由于 $p_0,p_1,\dots,p_i$ 由 $r_0,r_1,\dots,r_i$ 正交化通过Gram-Schmit算法构造，有

s p a n {p_{0}, p_{1}, \dots, p_{i}} = s p a n {r_{0}, r_{1}, \dots, r_{i}}

$span\{p_0,p_1,\dots,p_i\} =span\{r_0,r_1,\dots,r_i\}$
故有

r_{i + 1} ⊥ s p a n {r_{0}, r_{1}, \dots, r_{i}}

$r_{i+1}\perp span\{r_0,r_1,\dots,r_i\}$

又由于 $r_{i+1}\neq0$ ，所以 $r_0,r_1,\dots,r_{i+1}$ 线性无关

由数学归纳法知 $r_0,r_1,\dots,r_{n-1}$ 线性无关

如何由 $r_0,r_1,\dots,r_{n-1}$ 计算 $p_0,p_1,\dots,p_{n-1}$

取 $p_0=r_0$ ，假设已知 $p_0,p_1,\dots,p_{i-1}$ ，由Gram-Schmit过程知：

p_{i} = r_{i} - \sum_{k < i} β_{k} p_{k}

$p_i=r_i-\sum_{k<i}\beta_kp_k$
其中

β_{k} = \frac{< p_{k}, r_{i} >}{< p_{k}, p_{k} >} = \frac{p_{k}^{T} A r_{i}}{p_{k}^{T} A p_{k}}

$\beta_k=\frac{<p_k,r_i>}{<p_k,p_k>}=\frac{p_k^TAr_i}{p_k^TAp_k}$
既有

\begin{matrix} (1) & p_{i} = r_{i} - \sum_{k < i} \frac{p_{k}^{T} A r_{i}}{p_{k}^{T} A p_{k}} p_{k} \end{matrix}

$p_i=r_i-\sum_{k<i}\frac{p_k^TAr_i}{p_k^TAp_k}p_k \tag{1}$

现在化简 $\beta_k$ ，因为 $\beta_k$ 的分子分母都要进行矩阵和向量乘法，需要很高计算量。

注意到：

\begin{matrix} (2) & r_{i + 1} = b - A x_{i + 1} = b - A (x_{i} + a_{i} p_{i}) = r_{i} - a_{i} A p_{i} \end{matrix}

$r_{i+1}=b-Ax_{i+1}=b-A(x_i+a_ip_i)=r_i-a_iAp_i \tag{2}$

\begin{array}{rcl}  \end{array}

$\begin{eqnarray*} \end{eqnarray*}$

以及 $\forall k<i$

\begin{matrix} (3) & p_{k}^{T} r_{k} = p_{k}^{T} (b - A x_{i}) = p_{k}^{T} b - p_{k}^{T} A (\sum_{j < i} a_{j} p_{j}) = p_{k}^{T} b - a_{k} p_{k}^{T} A p_{k} = 0 \end{matrix}

$p_k^Tr_k=p_k^T(b-Ax_i)=p_k^Tb-p_k^TA(\sum_{j<i}a_jp_j)=p_k^Tb-a_kp_k^TAp_k=0 \tag{3}$

\begin{matrix} (4) & p_{k}^{T} A r_{i} = (A p_{k})^{T} r_{i} \overset{(2)}{=} = \frac{1}{a_{k}} (r_{k} - r_{k + 1})^{T} r_{i} \end{matrix}

$p_k^TAr_i=(Ap_k)^Tr_i\mathop{=}^{(2)}=\frac{1}{a_k}(r_k-r_{k+1})^Tr_i \tag{4}$

\begin{matrix} (5) & r_{k}^{T} r_{i} \overset{(1)}{=} (p_{k} + \sum_{j < k} β_{j} p_{j})^{T} r_{i} \overset{(3)}{=} 0 \end{matrix}

$r_k^Tr_i\mathop{=}^{(1)}(p_k+\sum_{j<k}\beta_jp_j)^Tr_i\mathop{=}^{(3)}0 \tag{5}$

所以有

p_{k}^{T} A r_{i} = 0 \forall k < i - 1 p_{i - 1}^{T} A r_{i} = - \frac{1}{a_{i - 1}} r_{i}^{T} r_{i}

$p_k^TAr_i=0 \quad \forall k<i-1\\ p_{i-1}^TAr_i=-\frac{1}{a_{i-1}}r_i^Tr_i$

p_{k}^{T} A p_{k} = p_{k}^{T} A (r_{k} - \sum_{j < k} β_{j} p_{j}) = p_{k}^{T} A r_{k} \overset{(4)}{=} \frac{1}{a_{k}} (r_{k} - r_{k - 1})^{T} r_{k} \overset{(5)}{=} \frac{1}{a_{k}} r_{k}^{T} r_{k}

$p_k^TAp_k=p_k^TA(r_k-\sum_{j<k}\beta_jp_j)=p_k^TAr_k\mathop{=}^{(4)}\frac{1}{a_k}(r_k-r_{k-1})^Tr_k\mathop{=}^{(5)}\frac{1}{a_k}r_k^Tr_k$

所以

p_{i} = r_{i} + \frac{r_{i}^{T} r_{i}}{r_{i - 1}^{T} r_{i - 1}} p_{i - 1}

$p_i=r_i+\frac{r_i^Tr_i}{r_{i-1}^Tr_{i-1}}p_{i-1}$

a_{i} = \frac{b^{T} p_{i}}{p_{i}^{T} A p_{i}} = \frac{(r_{i} + A x_{i})^{T} p_{i}}{p_{i}^{T} A p_{i}} = \frac{r_{i}^{T} p_{i} + (\sum_{k < i} a_{k} p_{k})^{T} A p_{i}}{p_{i}^{T} A p_{i}} = \frac{r_{i}^{T} (r_{i} - \sum_{k < i} β_{k} p_{k})}{p_{i}^{T} A p_{i}} \overset{(3)}{=} = \frac{r_{i}^{T} r_{i}}{p_{i}^{T} A p_{i}}

$a_i=\frac{b^Tp_i}{p_i^TAp_i}=\frac{(r_i+Ax_i)^Tp_i}{p_i^TAp_i}=\frac{r_i^Tp_i+(\sum_{k<i}a_kp_k)^TAp_i}{p_i^TAp_i}=\frac{r_i^T(r_i-\sum_{k<i}\beta_kp_k)}{p_i^TAp_i}\mathop{=}^{(3)}=\frac{r_i^Tr_i}{p_i^TAp_i}$

算法

初始条件： $x_0=0,r_0=b,p_0=r_0$
迭代： $a=\frac{r_i^Tr_i}{p_i^TAp_i},x_{i+1}=x_i+a_ip_i,r_{i+1}=r_i-a_iAp_i,p_{i+1}=r_i+\frac{r_{i+1}^Tr_{i+1}}{r_i^Tr_i}p_i$