前言
在推荐系统学习的过程中经常遇到欠拟合和过拟合两个词,一直不知道什么意思,在此笔者阐述下,请大家参考。
一、欠拟合和过拟合
如上图所示,在数据训练的过程中,我们需要根据现有的数据训练出模型,在数据训练的过程中一点点的调试参数,调试出自认为相对较好的模型。这里模型可以认为是图中的实线,通过实线的规律可以更好的预测用户下一个点的位置。
- 图1,如果在训练的过程中数据特征不够,或者训练数据量太少,可能出现数据欠拟合的情况。数据欠拟合会导致预测的值不够准确。
- 图2,一个正常拟合的情况,虽然并不是所有的点都在实线上,但是这个实线可以相对更好的预测出下一个点的位置。
- 图3是一个过拟合的场景,对于这种场景,可以通过减少特征数,或者使用正则化(Regularization)方法 。正则化是指修改学习算法,使其降低泛化误差而非训练误差。