【ML】容量、过拟合和欠拟合

Backto ML Index

在训练一个模型的时候,通常我们会先在一个训练集(training set) 上让模型学习,然后放到一个陌生的测试集(test set)上让模型考试。在 training set 上的误差称为训练误差(training error), test set 上的误差称为 泛化误差(generalization error/test error).

对于一个模型而言,我们最关注的是最终的 generalization error,这代表了模型解决实际问题的能力。

Created with Raphaël 2.2.0 Model training Good? test Good? Precious yes no yes no
  • 容量(Capacity):就是维度张成的空间大小。天生的,没办法。难题是 k k 维度的,模型是 s s 维度的, s < k s < k , 无论如何也学不会。
  • 欠拟合(Under-fitting): 容量够,但 testing 阶段就是学不会,testing error 过高。
  • 过拟合(Over-fitting): testing 阶段学的超级好,一上考场test 就完蛋, generalization error 过高。

这么多参数,进入 over-fitting 是很常见的。但是遇到 over-fitting 一定要先确认一下

  • 确实是在 testing 阶段做的足够好了么? 是刚刚好?还是没 train 好,还是 train 坏了?

猜你喜欢

转载自blog.csdn.net/baishuo8/article/details/88666459