Backto ML Index
在训练一个模型的时候,通常我们会先在一个训练集(training set) 上让模型学习,然后放到一个陌生的测试集(test set)上让模型考试。在 training set 上的误差称为训练误差(training error), test set 上的误差称为 泛化误差(generalization error/test error).
对于一个模型而言,我们最关注的是最终的 generalization error,这代表了模型解决实际问题的能力。
- 容量(Capacity):就是维度张成的空间大小。天生的,没办法。难题是 维度的,模型是 维度的, , 无论如何也学不会。
- 欠拟合(Under-fitting): 容量够,但 testing 阶段就是学不会,testing error 过高。
- 过拟合(Over-fitting): testing 阶段学的超级好,一上考场test 就完蛋, generalization error 过高。
这么多参数,进入 over-fitting
是很常见的。但是遇到 over-fitting
一定要先确认一下
- 确实是在 testing 阶段做的足够好了么? 是刚刚好?还是没 train 好,还是 train 坏了?