【机器学习】如何对抗过拟合（交叉验证与正则化）

思考

什么是拟合与过拟合
如何对抗过拟合

简单回顾下欠拟合与过拟合

在之前的博客中，博主针对欠拟合与过拟合简单总结过。博客链接：欠拟合与过拟合

拟合、欠拟合与过拟合

在训练模型时，涉及到选择与比较不同的模型在训练集和测试集的预测结果
这里有Bias（偏差）与Variance（方差）
拟合：
- 抓住主要特征，主要规律，主要趋势，可用于同一总体的其他采样样本的结果预测

* 欠拟合：
* 模型不够复杂，漏掉了部分数据规律
* high bias
* 增加模型复杂度

过拟合：
- 模型过于复杂，把样本的部分随机误差当作了总体的数据规律，并用模型进行解释。这部分解释并不能推广到总体分布的其他样本中。
- high variance
- 减少不必要的模型复杂度

对抗过拟合

交叉检验
正则化(regularization)
- L1
- L2

1. 从验证训练结果入手：交叉验证（cross-validation）

“交叉验证法”先将数据集D划分为k个大小相似的互斥子集，即 $D=D_1 \bigcup D_2 \bigcup ... \bigcup D_k, D_i \bigcap D_j = \varnothing (i \neq j).$ 每个子集 $D_i$ 都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用 $k - 1$ 个子集的并集作为训练集，余下的那个子集作为测试集，由此可以得到 $k$ 组训练/测试集，从而可进行 $k$ 次训练和测试，最终返回的是这 $k$ 个测试结果的均值。以下为“10折交叉验证示意图”（此解释来自周志华教授的西瓜书，很容易理解）

2. 从限制模型复杂度入手：正则化(regularization)

以线性回归为例：

L o s s = \sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2}

$\begin{equation*} Loss = \sum_{i=1}^N (y_i - \beta_0 - \sum_{j=1}^{p}x_{ij}\beta_j)^2 \\ \end{equation*}$
如果

β_{j}

$\beta_j$ 被限制在一个较小的范围，那么所对应的

x_{i j}

$x_{ij}$ 对模型复杂度对影响就会减弱

L1 norm: Lasso
使用L1正则的线性回归模型称为LASSO回归

${\hat{β}}^{L a s s o} = a r g m i n_{β} \sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2}, s u b j e c t t o \sum_{j = 1}^{N} | | β_{j} | | \leq t,$ $\begin{equation*} \hat{\beta}^{Lasso} = argmin_{\beta}\sum_{i=1}^N (y_i - \beta_0 - \sum_{j=1}^{p}x_{ij}\beta_j)^2, \\ subject \ to \ \sum_{j=1}^N ||{\beta_j}|| \leq t, \end{equation*}$
L2 norm: Ridge
使用L2正则的线性回归模型就称为Ridge回归（岭回归）
${\hat{β}}^{R i d g e} = a r g m i n_{β} \sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2}, s u b j e c t t o \sum_{j = 1}^{N} β_{j}^{2} \leq t,$ $\begin{equation*} \hat{\beta}^{Ridge} = argmin_{\beta}\sum_{i=1}^N (y_i - \beta_0 - \sum_{j=1}^{p}x_{ij}\beta_j)^2, \\ subject \ to \ \sum_{j=1}^N \beta_j^2 \leq t, \end{equation*}$

Ridge（L2-norm）和LASSO（L1-norm）比较

这里写图片描述

Lasso的结果容易将系数减至0

Ridge则是减小至非0值

L2-norm中，由于对于各个维度的参数缩放是在一个圆内缩放的，不可能导致有维度参数变为0的情况，那么也就不会产生稀疏解；实际应用中，数据的维度中是存在噪声和冗余的，稀疏的解可以找到有用的维度并且减少冗余，提高回归预测的准确性和鲁棒性（减少了过拟合）

Ridge模型具有较高的准确性、鲁棒性以及稳定性；LASSO模型具有较高的求解释速度。

注：Python代码实现—–链接