Machine Learning Yearning20~22

1.即使是所有的数据都是相同的分布,训练数据越多也不一定会得到想象的提高。那么我们啥时决定增加数据呢?机器学习里边误差主要来源两个方面:bias 和variance。明白这两个概念能够帮助我们,是否是通过增加数据还是和其它策略一起来提高网络的效果。
比如我们现在的算法,在训练集和测试集的error分别为15%,16%,我们想要达到5%的error。这时增加数据会使得更难达到我们需要的结果。这时,我们需要做的是提高训练集的效果,一般来说测试集效果没有训练集好,在训练集效果较差的情况下,测试集效果好不到哪儿。
先来说说什么是bias 和variance。对于测试集(16%的error),其中15%是和训练集相同,我们称这部分误差为bias;剩下的1%便是variance,表示比训练集效果差1%。通俗的说:bias是我们的算法在训练集上的误差,variance是测试集误差比训练集误差差多少。
2.那么我们是提高bias还是variance?我们的bias说的是训练集的error。那么我们的bias其实是和一个optimal error来比较的。比如:optimal error可以是人类的error。相对于optimal error,算法在训练集的表现才有bias。如果optimal error和bias相差很大,说明我们需要提高bias了。但是如果本身optimal error就很大,bias也很大,但是和optimal error差不多,这时是提高bias不是一个好的选择。举个例子:比如人对某一个事物的分辨能力的误差为15%,那么16%的训练误差其实还可以,虽然单看16%比较大。也就是说,optimal error能够指导我们的下一步计划。在统计领域,optimal error被称为Bayes error rate或者Bayes Rate。所以说,我们需要大概估计optimal error。

猜你喜欢

转载自blog.csdn.net/sunyao_123/article/details/80247410