机器学习4——过拟合与欠拟合

常用假设评估:对已有数据集划分为训练集和测试集,其中,训练集用于训练参数、完成模型,测试集用于计算误差、验证模型拟合能力。

多模型选择评估:对已有数据集划分为训练集、交叉验证集、测试集,其中,训练集用于训练参数、完成模型,交叉验证集用于计算不同模型交叉验证误差、评估选择模型,测试集用于计算选择模型的(推广)误差、验证模型拟合能力。

过拟合与欠拟合:

训练集在训练时误差很大,不能拟合训练集样本,拟合能力差,即为欠拟合;

训练集在训练时误差很小,能拟合训练集样本,但验证集误差大,不能拟合验证集样本,泛化能力差,即为过拟合。

偏差与方差:

       (偏差指模型在训练集中的结果与训练集标签之间的误差),模型欠拟合时,偏差大

       (方差指模型在验证集中的误差与训练集间的误差的差异),模型过拟合时,方差大

随模型特征指数的增加,模型由偏差大——能力较好——方差大变化:

随正则化程度增加,模型由方差大——能力较好——偏差大变化

样本数的影响程度与模型原本的偏差/方差大小有关

当偏差高时,模型拟合度低,样本数的增加会使交叉验证误差与训练误差很快趋于一致,过多增加样本数无意义

当方差高时,模型拟合度高,样本数增加会使交叉验证误差与训练误差缓慢趋近,增加样本有一定效果

猜你喜欢

转载自blog.csdn.net/nominior/article/details/84729349