机器学习：共轭梯度算法（PCG）

今天介绍数值计算和优化方法中非常有效的一种数值解法，共轭梯度法。我们知道，在解大型线性方程组的时候，很少会有一步到位的精确解析解，一般都需要通过迭代来进行逼近，而 PCG 就是这样一种迭代逼近算法。

我们先从一种特殊的线性方程组的定义开始，比如我们需要解如下的线性方程组：

A x = b

$\mathbf{A} \mathbf{x} = \mathbf{b}$

这里的 $\mathbf{A} (n \times n)$ 是对称，正定矩阵， $\mathbf{b} (n \times 1)$ 同样也是已知的列向量，我们需要通过 $\mathbf{A}$ 和 $\mathbf{b}$ 来求解 $\mathbf{x} (n \times 1)$ , 这其实是我们熟知的一些线性系统的表达式。

直接求解

首先，我们来看一种直观的解法，我们定义满足如下关系的向量为关于矩阵 $\mathbf{A}$ 的共轭向量，

u^{T} A v = 0

$\mathbf{u}^\mathsf{T} \mathbf{A} \mathbf{v} = 0$

因为矩阵 $\mathbf{A}$ 是对称正定矩阵，所以矩阵 $\mathbf{A}$ 定义了一个内积空间：

⟨ u, v ⟩_{A} := ⟨ A u, v ⟩ = ⟨ u, A^{T} v ⟩ = ⟨ u, A v ⟩ = u^{T} A v

$\langle \mathbf{u},\mathbf{v} \rangle_\mathbf{A} := \langle \mathbf{A} \mathbf{u}, \mathbf{v}\rangle = \langle \mathbf{u}, \mathbf{A}^\mathsf{T} \mathbf{v}\rangle = \langle \mathbf{u}, \mathbf{A}\mathbf{v} \rangle = \mathbf{u}^\mathsf{T} \mathbf{A} \mathbf{v}$

扫描二维码关注公众号，回复： 3154513 查看本文章

基于此，我们可以定义一组向量 $P$

P = {p_{1}, \dots, p_{n}}

$P= \left \{\mathbf{p}_1, \dots, \mathbf{p}_n \right \}$

其中的向量 $\mathbf{p}_1$ , $\mathbf{p}_2$ , … , $\mathbf{p}_n$ 都是互为共轭的，那么 $P$ 构成了 $\mathbb{R}^{n}$ 空间的一个基，上述方程的解 $\mathbf{x}_*$ 可以表示成 $P$ 中向量的线性组合：

x_{*} = \sum_{i = 1}^{n} α_{i} p_{i}

$\mathbf{x}_* = \sum^{n}_{i=1} \alpha_i \mathbf{p}_i$

根据上面的表达式，我们可以得到：

A x_{*} = \sum_{i = 1}^{n} α_{i} A p_{i} p_{k}^{T} A x_{*} = \sum_{i = 1}^{n} α_{i} p_{k}^{T} A p_{i} (Multiply left by p_{k}^{T}) p_{k}^{T} b = \sum_{i = 1}^{n} α_{i} {⟨ p_{k}, p_{i} ⟩}_{A} (A x_{*} = b and ⟨ u, v ⟩_{A} = u^{T} A v) ⟨ p_{k}, b ⟩ = α_{k} {⟨ p_{k}, p_{k} ⟩}_{A} (u^{T} v = ⟨ u, v ⟩ and \forall i \neq k : {⟨ p_{k}, p_{i} ⟩}_{A} = 0)

$\mathbf{A} \mathbf{x}_* = \sum^{n}_{i=1} \alpha_i \mathbf{A} \mathbf{p}_i \\ \mathbf{p}_k^\mathsf{T} \mathbf{A} \mathbf{x}_* = \sum^{n}_{i=1} \alpha_i \mathbf{p}_k^\mathsf{T} \mathbf{A} \mathbf{p}_i \quad \text{(Multiply left by } \mathbf{p}_k^\mathsf{T} \text{)} \\ \mathbf{p}_k^\mathsf{T} \mathbf{b} = \sum^{n}_{i=1} \alpha_i \left \langle \mathbf{p}_k, \mathbf{p}_i \right \rangle_{\mathbf{A}} \qquad (\mathbf{Ax_*} = \mathbf{b} \text{ and } \langle \mathbf{u},\mathbf{v} \rangle_\mathbf{A} = \mathbf{u}^\mathsf{T} \mathbf{A} \mathbf{v}) \\ \left \langle \mathbf{p}_k, \mathbf{b} \right \rangle =\alpha_k \left \langle \mathbf{p}_k, \mathbf{p}_k \right \rangle_{\mathbf{A}} \qquad (\mathbf{u}^\mathsf{T} \mathbf{v} = \left \langle \mathbf{u}, \mathbf{v} \right \rangle \text{ and } \forall i \neq k: \left \langle \mathbf{p}_k, \mathbf{p}_i \right \rangle_{\mathbf{A}} = 0 )$
这意味着：

α_{k} = \frac{⟨ p_{k}, b ⟩}{{⟨ p_{k}, p_{k} ⟩}_{A}}

$\alpha_k =\frac{\left \langle \mathbf{p}_k, \mathbf{b} \right \rangle}{\left \langle \mathbf{p}_k, \mathbf{p}_k \right \rangle_\mathbf{A}}$

所以，如果我们要直接求解的，可以先对矩阵 $\mathbf{A}$ 进行特征值分解，求出一系列的共轭向量，然后求出系数，最后可以得到方程的解 $\mathbf{x_*}$

迭代求解

上面的方法已经说明， $\mathbf{x}_*$ 是一系列共轭向量 $\mathbf{p}$ 的线性组合，学过 PCA 的都知道，可以用前面占比高的向量组合进行逼近，而不需要把所有的向量都组合到一起，PCG 也是用到了这种思想，通过仔细的挑选共轭向量 $\mathbf{p}$ 来重建方程的解 $\mathbf{x_*}$ 。

我们先来看下面的一个方程：

f (x) = \frac{1}{2} x^{T} A x - x^{T} b, x \in R^{n}

$f(\mathbf{x}) = \tfrac12 \mathbf{x}^\mathsf{T} \mathbf{A}\mathbf{x} - \mathbf{x}^\mathsf{T} \mathbf{b}, \qquad \mathbf{x}\in\mathbf{R}^n$

对上面的方程求导，我们可以得到：

D^{2} f (x) = A

$\mathrm{D}^2 f(\mathbf{x}) = \mathbf{A}$

D f (x) = A x - b

$\mathrm{D} f(\mathbf{x}) = \mathbf{A} \mathbf{x} - \mathbf{b}$

可以看到，方程的一阶导数就是我们需要解的线性方程组，令一阶导数为 0，那么我们需要解的就是这样一个线性方程组了。

假设我们随机定义 $\mathbf{x}$ 的一个初始向量为 $\mathbf{x_0}$ ，那么我们可以定义第一个共轭向量为 $\mathbf{p}_0 = \mathbf{b} - \mathbf{A} \mathbf{x}_0$ , 后续的基向量都是和梯度共轭的，所以称为共轭梯度法。

下面给出详细的算法流程：

这里写图片描述

而 preconditioned conjugate gradient method 与共轭梯度法的不同之处在于预先定义了一个特殊矩阵 $\mathbf{M}$ ：

这里写图片描述

参考来源：wiki 百科

https://en.wikipedia.org/wiki/Conjugate_gradient_method#The_preconditioned_conjugate_gradient_method