小白的机器学习学习笔记（九）----欠拟合，过拟合，正则化

一、欠拟合和过拟合

什么是欠拟合呢？上左图是分类问题的欠拟合，上右图是回归问题的欠拟合，可以看出欠拟合就是拟合的效果欠佳，高偏差，训练集的很多样本点压根就不在拟合的直线或曲线上，或没有很好的被分类。造成欠拟合的很大的可能性是先入为主的臆断假设函数或决策边界的类型导致。如何解决欠拟合呢？可以通过增加多项式特征或其他特征项来完善假设函数或决策边界以达到更好的拟合效果。

什么是过拟合呢？上左图是分类问题的过拟合，上右图是回归问题的过拟合，可以看出过拟合就是拟合效果过于好，高方差，训练集给的样本所有点都被假设函数完美而又千方百计的拟合，或者被决策边界十分有意的分开，这样的结果会造成测试集的样本输入得不到好的预测值。造成过拟合很大的可能性是特征太多，所以可以通过删减部分特征的方法来缓解过拟合，但这样会丧失部分信息。正则化就可以在不删减特征量的前提下解决过拟合。

二、正则化

举个例子来说，回归问题拟合时，如果 $h(x)=k1x1+k2x2^2+k3x3^3+k4x4^4$ 为过拟合，且 $h(x)=k1x1+k2x2^2$ 为最佳拟合，我们可以通过改变优化函数或优化目标解决这一过拟合问题： $goal=min(J(k)+1000k3+1000k4)$ ，为实现目标，k3与k4应该尽量趋于0，与最佳拟合假设函数近似相同，即在不删减特征量的基础上通过改变参数的影响程度来实现解决过拟合。