PRML 学习: (1) Polynomial Curve Fitting

本系列文章由 @YhL_Leo 出品，转载请注明出处。
文章链接： http://blog.csdn.net/yhl_leo/article/details/75534111

多项式曲线拟合是比较基础的回归分析方法，假设有一独立变量 $x$ 和与其相关的变量 $y$ ，存在着变量 $x$ 的 $m$ 阶多项式可以模拟这种映射关系，可以用于解决一些非线性拟合问题。

1 基础概念

给定一组包含 $n$ 个观测数据 $x$ ， $\mathbf{x} = \{ x_0, x_1, \dots, x_n \}$ ，和其对应的预测值 $y$ , $\mathbf{y} = \{ y_0, y_1, \dots, y_n \}$ , 例如图1中利用 $sin(2\pi x)$ 函数合成的观测数据（30组加入了随机均匀噪声的观测值）。我们的目标就是使用这样的一个观测数据，训练/学习到一个模型，当引入新的数值 $\hat{x}$ 时，可以有效得预测它对应的数值 $\hat{y}$ 。

data

图 1

可以看出，实现这一目标暗示着，我们要尽可能地找到观测数据所对应的潜在的模型，即 $sin(2\pi x)$ 。但是要通过有限的观测数据（含有噪声）准确地泛化出这一模型，是相当困难的。即便如此，我们还是可以把这一问题简化成为曲线拟合问题。我们指定采用的多项式形式为：

y (x, w) = w 0 + w 1 x + w 2 * x 2 + \dots + w m x m = \sum i = 0 m w i x i, (1)

$y(x, \mathbf{w}) = w_0 + w_1x + w_2*x^2 + \dots + w_mx^m = \sum_{i=0}^{m}w_ix^i, \tag{1}$

其中，取 $x$ 幂次最高值 $m$ ，称该多项式为 $m$ 次多项式。虽然，该多项式是 $x$ 的非线性函数，但是却是待系数 $\mathbf{w}$ 的线性方程。方程 $(1)$ 的矩阵形式为：

Y Y = X X w, (2)

$\mathcal{\pmb{Y}} = \mathcal{\pmb{X}} \mathbf{w}, \tag{2}$

其中，

Y Y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y 0 y 1 ⋮ y n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥,

$\mathcal{\pmb{Y}} = \left[ \begin{matrix} y_{0} \\ y_{1} \\ \vdots\\ y_{n} \end{matrix}\right] ,$

X X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 111 x 0 x 1 x n x 20 \dots x 21 \dots ⋮ x 2 n \dots x m 0 x m 1 x m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥,

$\mathcal{\pmb{X}} = \left[ \begin{matrix} 1 & x_0 & x_0^2 \dots & x_0^m \\ 1 & x_1 & x_1^2 \dots & x_1^m \\ & & \vdots & \\ 1 & x_n & x_n^2 \dots & x_n^m \\ \end{matrix}\right] ,$

w = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ w 0 w 1 ⋮ w n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\mathbf{w} = \left[ \begin{matrix} w_{0} \\ w_{1} \\ \vdots\\ w_{n} \end{matrix}\right]$

通过观测数据就可以确定该多项式的系数，假设我们已经得到了这样一组系数 $\mathbf{w}$ ，那么理想的情况下，我们当然希望对于给定的任一观测值，由模型计算提供的预测值尽可能的接近对应的观测数据，即残差平方和误差函数（ Residual sum of squares (RSS), or the sum of squared residuals (SSR), or the sum of squared errors of prediction (SSE)）：

L (w) = 1 2 \sum i = 1 n {y (x i, w) - y i} 2, (3)

$\mathcal{L(\mathbf{w})} = \frac{1}{2}\sum_{i=1}^n \{ y(x_i, \mathbf{w}) - y_i\}^2, \tag{3}$

这里我们把由模型参数 $\mathbf{w}$ 得到的估值 $y(x_i, \mathbf{w})$ 简记为 $\hat{y}_i$ ，于是 $(3)$ 就可以简化为： $\mathcal{L(\mathbf{w})} = \frac{1}{2}\sum_{i=1}^n \{ \hat{y}_i - y_i\}^2$ , 公式 $(3)$ 中的常数 $\frac{1}{2}$ ，主要是为了方便后面求解过程，当然即便不引入也没关系。

随着多项式模型的最高阶数 $m$ 增大，我们可以想象，即便变量 $x$ 有很小的变化， $x^m$ 对这一变化也可能很敏感，也就是说模型的复杂度/非线性程度较大，在训练数据较少的时候，这很容易导致过拟合问题（over-fitting）:

因此，一般会通过进入正则项（regularization）来限制模型复杂度，以提高泛化能力：

L (w) = 1 2 \sum i = 1 n {y (x i, w) - y i} 2 + λ 2 | | w | | 2, (4)

$\mathcal{L(\mathbf{w})} = \frac{1}{2}\sum_{i=1}^n \{ y(x_i, \mathbf{w}) - y_i\}^2 + \frac{\lambda}{2}||\mathbf{w}||^2, \tag{4}$

其中， $||\mathbf{w}||^2 = \mathbf{w}^T\mathbf{w} = w_0^2 + w_1^2 + \dots + w_m^2$ ，参数 $\lambda$ 控制 $||\mathbf{w}||^2$ 的大小从而影响模型的复杂度并且在一定程度上影响模型的过拟合程度，在神经网络中，这种方法也被称为 weight decay。可以看出，当 $\lambda = 0$ 时，方程 $(4)$ 退化成 $(3)$ ，参数 $\lambda$ 的作用本质上来讲就是权衡模型的偏差 (Bias) 与方差 (Variance) ，亦称 Bias-variance tradeoff。有了 $\mathcal{L(\mathbf{w})}$ 通常就很容易用均方根误差 ( root-mean-square error, RMS) 来衡量模型的泛化性能：

E R M S = 2 * L (w) / n - - - - - - - - - \sqrt, (5)

$E_{RMS} = \sqrt{2*\mathcal{L}(\mathbf{w}) / n}, \tag{5}$

2 最小二乘解

对于方程 $(4)$ 我们将其转为矩阵形式，可得：

L (w) = 1 2 (X X w - Y Y) T (X X w - Y Y) + λ 2 w T w, (6)

$\mathcal{L(\mathbf{w})} = \frac{1}{2}(\mathcal{\pmb{X}} \mathbf{w} - \mathcal{\pmb{Y}})^T(\mathcal{\pmb{X}} \mathbf{w} - \mathcal{\pmb{Y}}) + \frac{\lambda}{2}\mathbf{w}^T\mathbf{w}, \tag{6}$

很明显，这是一个关于 $\mathbf{w}$ 的二次函数，则其一定存在唯一的极值点，而且对于曲线拟合问题，该极值点理论上应该就是最小值点，且该极值点满足：

\partial L \partial w = (X X w - Y Y) T X X + λ w T = 0, (7)

$\frac{\partial \mathcal{L}}{\partial \mathbf{w}} = (\mathcal{\pmb{X}} \mathbf{w} - \mathcal{\pmb{Y}})^T\mathcal{\pmb{X}} + \lambda \mathbf{w}^T = 0, \tag{7}$

即，

w T (X X T X X + λ I) - Y Y T w = 0, (8)

$\mathbf{w}^T(\mathcal{\pmb{X}}^T \mathcal{\pmb{X}} + \lambda \mathbf{I} ) - \mathcal{\pmb{Y}}^T\mathbf{w} = 0, \tag{8}$

即，

w T = Y Y T w (X X T X X + λ I) - 1, (9)

$\mathbf{w}^T = \mathcal{\pmb{Y}}^T\mathbf{w}(\mathcal{\pmb{X}}^T \mathcal{\pmb{X}} + \lambda \mathbf{I} )^{-1}, \tag{9}$

可得：

w = ((X X T X X + λ I) - 1) T w T Y Y, (10)

$\mathbf{w} = ((\mathcal{\pmb{X}}^T \mathcal{\pmb{X}} + \lambda \mathbf{I} )^{-1})^T\mathbf{w}^T\mathcal{\pmb{Y}}, \tag{10}$

3 实验结果

图 2 展示了两组使用最小二乘法拟合结果，其中左边的拟合不包含正则化项（ $\lambda = 0$ ），右边的包含正则化项（ $\lambda = 1e-3$ ）, 分别绘制了多项式最高幂次 $M = \{1， 3， 5， 7， 9\}$ 的拟合曲线。

curvefit

图 2

图 3 展示了不使用( w/o) / 使用 (w/) 正则化项对于 $E_{RMS}$ 的影响（1.此处， $\lambda = 1e-3$ ；2.对于使用正则化项的情形，我们只统计 $\frac{1}{2}\sum_{i=1}^n \{ y(x_i, \mathbf{w}) - y_i\}^2$ 部分）。可以看出，使用正则化项后，可以降低模型的复杂度，但是也会会导致 $E_{RMS}$ 增大。

regularization

图 3

图 4 展示了不同 $\lambda$ 值对于模型的影响，当 $\lambda$ 值较大时模型复杂度较低，反之亦然。

lambda

图 4

References:

Pattern Recognition and Machine Learning, Christopher M. Bishop
Pattern Calssification, Richard O. Duda, et al.