1. 过拟合问题

（The Problem of Overfitting）

到现在为止，我们已经学习了线性回归和逻辑回归这两种学习算法，它们能够有效地解决许多问题，但是当将它们应用到某些特定的机器学习应用时，会遇到 过拟合（over-fitting）的问题，可能会导致学习效果很差。

1.1 回归问题中的过拟合

下图是一个回归问题的例子，如果我们有非常多的特征，我们通过学习得到的假设可能能够非常好地适应训练集（代价函数可能几乎为0），但是可能会不能推广到新的数据。
在这里插入图片描述

第一个模型是一个线性模型，欠拟合（under-fitting），具有较大偏差（high bias）不能很好地适应训练集；
第三个模型是一个四次方的模型，过于强调拟合原始数据，而丢失了算法的本质：预测新数据。虽然能非常好地适应训练集，但在新输入变量进行预测时效果表现的很差，是 过拟合（over-fitting）；
中间的模型似乎最合适。

1.2 分类问题中的过拟合

分类问题中也存在这样的问题：

在这里插入图片描述 就以多项式理解， $x$ 的次数越高，拟合的越好，但相应的预测的能力就可能变差。

1.3 过拟合的解决方法

丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征，或者使用一些模型选择的算法来帮忙（例如PCA）
正则化（Regularization）。保留所有的特征，但是减少参数的大小。

2. 正则化

（Regularization）

以回归问题中的过拟合为例，假设过拟合的模型是：
$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4$ 正是高次项导致了过拟合的产生，所以如果我们能降低这些高次项的权重，即让其系数越小的话，模型就能很好的拟合了。
我们要做的就是在一定程度上减小这些参数的值，这就是正则化的基本方法。

在这里插入图片描述
要减少 $\theta_3$ 和 $\theta_4$ 的大小，可以通过修改代价函数，在其中 $\theta_3$ 和 $\theta_4$ 设置一点惩罚，例如：
$\mathop{\text{min}}\limits_{\mathcal{\theta}}\frac{1}{2m} \left[\sum_{i=1}^{m} (h_\theta(x^{(i)})y^{(i)})^2+1000\theta_3^2+1000\theta_4^4\right]$

这样做的话，我们在尝试最小化代价函数时也需要将这个惩罚纳入考虑中，并最终导致选择较小一些的 $\theta_3$ 和 $\theta_4$ ，对预测结果的影响就比之前要小许多。

如我们有非常多的特征，我们并不知道其中哪些特征要惩罚，那么将对所有的特征进行惩罚，并且让代价函数最优化的软件来选择这些惩罚的程度。这样的结果是得到了一个较为简单的能防止过拟合问题的假设：
$J(\theta)=\frac{1}{2m} \left[\sum_{i=1}^{m} (h_\theta(x^{(i)})y^{(i)})^2+\lambda\sum_{j=1}^{n}\theta_j^2\right]$ 其中 $\lambda$ 又称为正则化参数（Regularization Parameter）。注：根据惯例，我们不对 $\theta_0$ 进行惩罚。经过正则化处理的模型与原模型的可能对比如下图所示：
在这里插入图片描述
如果选择的正则化参数 $\lambda$ 过大，则会把所有的参数都最小化了，导致模型变成 $h_\theta(x)=\theta_0$ ，也就是上图中红色直线所示的情况，造成欠拟合。

为什么增加一项 $\lambda\displaystyle\sum_{j=1}^{n}\theta_j^2$ 可以使 $\theta$ 的值减小呢？因为如果我们令 $\lambda$ 的值很大的话，为了使代价函数尽可能的小，所有 $\theta$ 的值（不包括 $\theta_0$ ）都会在一定程度上减小。

所以对于正则化，我们要取一个合理的 $\lambda$ 值，这样才能更好的应用正则化。

2.1 正则化的线性回归

（Regularized Linear Regression）

对于线性回归的求解，之前推导了两种学习算法：

一种基于梯度下降
一种基于正规方程

2.1.1 基于梯度下降的正则化

正则化线性回归的代价函数为：
$J(\theta)=\frac{1}{2m} \left[\sum_{i=1}^{m} (h_\theta(x^{(i)})y^{(i)})^2+\lambda\sum_{j=1}^{n}\theta_j^2\right]$ 如果我们要使用梯度下降法令这个代价函数最小化：

在这里插入图片描述因为我们未对 $\theta_0$ 进行正则化，所以梯度下降算法将分两种情形：
对上面的算法中 $j=1,2,...,n$ 时的式子进行调整可得：

在这里插入图片描述
可以看出，正则化线性回归的梯度下降算法的变化在于：每次都在原有算法更新规则的基础上令 $\theta$ 值减小到原来的 $(1-\alpha\frac{1}{m})$ 倍，通常学习率 $\alpha$ 很小，样本数量 $m$ 很大，因此 $(1-\alpha\frac{1}{m})<1$