思考
- 什么是拟合与过拟合
- 如何对抗过拟合
简单回顾下欠拟合与过拟合
在之前的博客中,博主针对欠拟合与过拟合简单总结过。博客链接:欠拟合与过拟合
拟合、欠拟合与过拟合
- 在训练模型时,涉及到选择与比较不同的模型在训练集和测试集的预测结果
- 这里有Bias(偏差)与Variance(方差)
- 拟合:
- 抓住主要特征,主要规律,主要趋势,可用于同一总体的其他采样样本的结果预测
* 欠拟合:
* 模型不够复杂,漏掉了部分数据规律
* high bias
* 增加模型复杂度
- 过拟合:
- 模型过于复杂,把样本的部分随机误差当作了总体的数据规律,并用模型进行解释。这部分解释并不能推广到总体分布的其他样本中。
- high variance
- 减少不必要的模型复杂度
对抗过拟合
- 交叉检验
- 正则化(regularization)
- L1
- L2
1. 从验证训练结果入手:交叉验证(cross-validation)
“交叉验证法”先将数据集D划分为k个大小相似的互斥子集,即 每个子集 都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用 个子集的并集作为训练集,余下的那个子集作为测试集,由此可以得到 组训练/测试集,从而可进行 次训练和测试,最终返回的是这 个测试结果的均值。以下为“10折交叉验证示意图”(此解释来自周志华教授的西瓜书,很容易理解)
2. 从限制模型复杂度入手:正则化(regularization)
- 以线性回归为例:
如果 被限制在一个较小的范围,那么所对应的 对模型复杂度对影响就会减弱
- L1 norm: Lasso
使用L1正则的线性回归模型称为LASSO回归
L2 norm: Ridge
- 使用L2正则的线性回归模型就称为Ridge回归(岭回归)
Ridge(L2-norm)和LASSO(L1-norm)比较
- Lasso的结果容易将系数减至0
- Ridge则是减小至非0值
L2-norm中,由于对于各个维度的参数缩放是在一个圆内缩放的,不可能导致有维度参数变为0的情况,那么也就不会产生稀疏解;实际应用中,数据的维度中是存在噪声和冗余的,稀疏的解可以找到有用的维度并且减少冗余,提高回归预测的准确性和鲁棒性(减少了过拟合)
Ridge模型具有较高的准确性、鲁棒性以及稳定性;LASSO模型具有较高的求解释速度。
注:Python代码实现—–链接