【机器学习】如何对抗过拟合(交叉验证与正则化)

思考

  1. 什么是拟合与过拟合
  2. 如何对抗过拟合

简单回顾下欠拟合与过拟合

在之前的博客中,博主针对欠拟合与过拟合简单总结过。博客链接:欠拟合与过拟合

拟合、欠拟合与过拟合

  • 在训练模型时,涉及到选择与比较不同的模型在训练集和测试集的预测结果
  • 这里有Bias(偏差)与Variance(方差)
  • 拟合
    • 抓住主要特征,主要规律,主要趋势,可用于同一总体的其他采样样本的结果预测

这里写图片描述

* 欠拟合:
* 模型不够复杂,漏掉了部分数据规律
* high bias
* 增加模型复杂度

这里写图片描述

  • 过拟合:
    • 模型过于复杂,把样本的部分随机误差当作了总体的数据规律,并用模型进行解释。这部分解释并不能推广到总体分布的其他样本中。
    • high variance
    • 减少不必要的模型复杂度

这里写图片描述

对抗过拟合

  1. 交叉检验
  2. 正则化(regularization)
    • L1
    • L2

1. 从验证训练结果入手:交叉验证(cross-validation)

“交叉验证法”先将数据集D划分为k个大小相似的互斥子集,即 D = D 1 D 2 . . . D k , D i D j = ( i j ) . 每个子集 D i 都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用 k 1 个子集的并集作为训练集,余下的那个子集作为测试集,由此可以得到 k 组训练/测试集,从而可进行 k 次训练和测试,最终返回的是这 k 个测试结果的均值。以下为“10折交叉验证示意图”(此解释来自周志华教授的西瓜书,很容易理解)

这里写图片描述

2. 从限制模型复杂度入手:正则化(regularization)

  • 以线性回归为例:

L o s s = i = 1 N ( y i β 0 j = 1 p x i j β j ) 2

如果 β j 被限制在一个较小的范围,那么所对应的 x i j 对模型复杂度对影响就会减弱

  • L1 norm: Lasso
  • 使用L1正则的线性回归模型称为LASSO回归

    β ^ L a s s o = a r g m i n β i = 1 N ( y i β 0 j = 1 p x i j β j ) 2 , s u b j e c t   t o   j = 1 N | | β j | | t ,

  • L2 norm: Ridge

  • 使用L2正则的线性回归模型就称为Ridge回归(岭回归)
    β ^ R i d g e = a r g m i n β i = 1 N ( y i β 0 j = 1 p x i j β j ) 2 , s u b j e c t   t o   j = 1 N β j 2 t ,

Ridge(L2-norm)和LASSO(L1-norm)比较

这里写图片描述

  • Lasso的结果容易将系数减至0
  • Ridge则是减小至非0值

L2-norm中,由于对于各个维度的参数缩放是在一个圆内缩放的,不可能导致有维度参数变为0的情况,那么也就不会产生稀疏解;实际应用中,数据的维度中是存在噪声冗余的,稀疏的解可以找到有用的维度并且减少冗余,提高回归预测的准确性鲁棒性(减少了过拟合)

Ridge模型具有较高的准确性、鲁棒性以及稳定性;LASSO模型具有较高的求解释速度。

注:Python代码实现—–链接

猜你喜欢

转载自blog.csdn.net/daycym/article/details/80310548