模型的过拟合与欠拟合

在建模的过程中，常常会有模型表现不尽人意的情况。模型表现不好，无非就是两种情况：过拟合（overfitting）和欠拟合（underfitting）。我们需要弄清楚模型表现不好是具体哪一类，这样才能针对不同的原因寻找最优的解决办法，不做无用功。下表为大家总结了模型过拟合和欠拟合的原因，表现和解决办法：

 
欠拟合 
 

 
  欠拟合 
  就是模型没有很好地捕捉到数据特征，不能够很好地拟合数据。

 
  解决方法： 
 

 
  1） 
  添加其他特征项 
  ，有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。例如，“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段，无论在什么场景，都可以照葫芦画瓢，总会得到意想不到的效果。除上面的特征之外，“上下文特征”、“平台特征”等等，都可以作为特征添加的首选项。 
 

 
  2） 
  添加多项式特征 
  ，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。例如上面的图片的例子。 
 

 
  3） 
  减少正则化参数 
  ， 
  正则化的目的是用来防止过拟合的 
  ，但是现在模型出现了欠拟合，则需要减少正则化参数。 
 

 
过拟合 
 

 
  通俗一点地来说过拟合就是模型把数据学习的太彻底，以至于把噪声数据的特征也学习到了，这样就会导致在后期测试的时候不能够很好地识别数据，即不能正确的分类，模型泛化能力太差。 
 

 
  解决方法： 
 

 
  1） 
  重新清洗数据 
  ，导致过拟合的一个原因也有可能是数据不纯导致的，如果出现了过拟合就需要我们重新清洗数据。 
 

 
  2） 
  增大数据的训练量 
  ，还有一个原因就是我们用于训练的数据量太小导致的，训练数据占总数据的比例过小。 
 

 
  3） 
  采用正则化方法 
  。 
  正则化方法包括L0正则、L1正则和L2正则，而正则一般是在目标函数之后加上对于的范数。 
 

模型的过拟合与欠拟合

猜你喜欢