机器学习中,发生过拟合的问题的两条处理方法

1、丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征,或者使用一些模型选择的算法来帮忙(例如PCA)

2、正则化。保留所有的特征,但是减少参数的大小(magnitude)。

为防止正则化程度太高或者太小,我们需要选择合适的λ,通常是0~10之间的呈现2倍关系的值(比如0,0.01,0.02,0.04,0.08,0.15,0.32,0.64,1.28,2.56,5.12,10)。


选择λ的方法为:

1、使用训练集训练出12个不同程度正则化的模型

2、用12个模型分别对交叉验证集计算的出交叉验证误差

3、选择得出交叉验证误差最小的模型

4、运用步骤3中选择模型对测试集计算得出推广误差。

猜你喜欢

转载自blog.csdn.net/weixin_42007359/article/details/80332438