机器学习过拟合

一.概述
1.概念:

"欠拟合"(Underfitting)是指模型不能在训练集上获得足够低的误差,又称"高偏差"(High Bias)
"过拟合"(Overfitting)是指模型在训练集上表现好,但在测试集上表现差,又称"高方差"(High Variance).即模型对未知样本的预测表现差,"泛化"
(Generalization)能力差

在这里插入图片描述
2.原因:

出现过拟合的原因可能是:
①训练集中的样本过于单一
②训练集中的噪声干扰过大
③过度追求与训练集样本的一致性,使模型过于复杂

在这里插入图片描述

3.学习曲线:

"学习曲线"(Learning Curves)是用于表示样本集大小与训练误差,泛化误差间关系的(2条)曲线

在这里插入图片描述

在过拟合的情况下,则不论数据集有多大,泛化误差都不会下降太多;而在欠拟合的情况下,增大数据集可有效降低泛化误差

二.解决方法

欠拟合的解决方法主要为
①增加新特征
②使用更复杂的模型
③降低正则化的惩罚力度
④延长训练时间
过拟合的解决方法主要为:
①减少特征,如PCA
②增大训练集
③增大正则化的惩罚力度

1.正则化
(1)概念:

"正则化"(Regularization)是1种用于避免过拟合的技术.使用正则化时,样本的所有特征都会被保留;但会对指定参数θj进行惩罚,从而减小其值来减小
对应项的影响.如使用多项式进行预测时,常需要减小高次项的影响.这种方法在每个特征都对预测有贡献时比PCA等会丢弃部分特征的方法更有效

(2)实现:

正则化的一般形式为 $\min{\frac{1}{2m}\{\displaystyle\sum_{i=1}^m[y_i-h_β(x_i)]^2+r(β)}\}$ 其中 $x_i,y_i)$ 是第 $i$ 条数据, $h_β(x)$ 是预测器, $r (β)$ 用于对指定参数进行惩罚.如果特征非常多,不知道应该对哪些参数进行惩罚,则可以通过最优化来确定对各参数的惩罚程度,一般形式为 $\min{\frac{1}{2m}\{\displaystyle\sum_{i=1}^m[y_i-h_β(x_i)]^2+λ\displaystyle\sum_{j=1}^nβ_j^2}\}$ 其中 $λ$ 称为正则化参数(Regularization Parameter),用于确定对各参数的惩罚程度.另外,根据惯例,不对常数项 $β_0$ 进行惩罚

(3)正则化参数的选择:
在这里插入图片描述

2.丢弃特征

参见 数据分析.数据规约.二 部分

机器学习 过拟合

猜你喜欢