误差:
经验误差:在训练集样本中分类错误的样本占总训练样本集的比例,也称为训练误差
泛化误差:在新样本上的误差比例。通常用它进行评估模型的好坏。
精度:1-错误率,精度为100%通常都是有问题的。
过拟合(相对的是欠拟合):机器学习的目的就是从训练样本中尽可能学出适用于所有潜在样本的普遍规律,这样才能在遇到新样本时做出正确的判别。然而当学习器把训练样本学得太好了的时候,很可能已经把训练样本自身的而一些特点当作了所有潜在样本都会具有的一般性质,这样可能导致泛化性能下降。这种现象即称为过拟合。应当避免通过经验误差最小化来获得最优解。
评估方法:
这时候我们的测试集就要登场,通常测试集与训练集互斥,尽量保证其不在训练集中出现或者使用过。