DL_4——模型选择,过拟合和欠拟合

1 模型选择

1.1 数据集

  • 验证数据集:一个用来评估模型好坏的数据集
    • 例如拿出50%的训练数据
    • 不要跟训练数据混在一起
  • 测试数据集:只用一次的数据集
    • 未来的考试
    • 用在Kaggle私有排行榜中的数据集

1.2 K折交叉验证

当训练数据稀缺时,我们甚⾄可能⽆法提供⾜够的数据来构成⼀个合适的验证集。这个问题的⼀个流⾏的解决⽅案是采⽤K折交叉验证。

这⾥,原始训练数据被分成K个不重叠的⼦集。然后执⾏K次模型训练和验证,每次在K - 1个⼦集上进⾏训练,并在剩余的⼀个⼦集(在该轮中没有⽤于训练的⼦集)上进⾏验证。

最后,通过对K次实验的结果取平均来估计训练和验证误差。

2 过拟合和欠拟合

在这里插入图片描述

2.1 模型容量

  • 模型容量的影响
    在这里插入图片描述

2.2 数据复杂度

  • 样本个数
  • 每个样本的元素个数
  • 时间、空间结构
  • 多样性

2.3 总结

  • 模型容量需要匹配数据复杂度,否则可能会导致欠拟合和过拟合
  • 统计机器学习提供数学工具来衡量模型复杂度
  • 实际中一般靠观察训练误差和验证误差

猜你喜欢

转载自blog.csdn.net/CesareBorgia/article/details/120260960