Machine Learning Yearning20~22

1.即使是所有的数据都是相同的分布，训练数据越多也不一定会得到想象的提高。那么我们啥时决定增加数据呢？机器学习里边误差主要来源两个方面：bias 和variance。明白这两个概念能够帮助我们，是否是通过增加数据还是和其它策略一起来提高网络的效果。
比如我们现在的算法，在训练集和测试集的error分别为15%，16%，我们想要达到5%的error。这时增加数据会使得更难达到我们需要的结果。这时，我们需要做的是提高训练集的效果，一般来说测试集效果没有训练集好，在训练集效果较差的情况下，测试集效果好不到哪儿。
先来说说什么是bias 和variance。对于测试集（16%的error），其中15%是和训练集相同，我们称这部分误差为bias；剩下的1%便是variance，表示比训练集效果差1%。通俗的说：bias是我们的算法在训练集上的误差，variance是测试集误差比训练集误差差多少。
2.那么我们是提高bias还是variance？我们的bias说的是训练集的error。那么我们的bias其实是和一个optimal error来比较的。比如：optimal error可以是人类的error。相对于optimal error，算法在训练集的表现才有bias。如果optimal error和bias相差很大，说明我们需要提高bias了。但是如果本身optimal error就很大，bias也很大，但是和optimal error差不多，这时是提高bias不是一个好的选择。举个例子：比如人对某一个事物的分辨能力的误差为15%，那么16%的训练误差其实还可以，虽然单看16%比较大。也就是说，optimal error能够指导我们的下一步计划。在统计领域，optimal error被称为Bayes error rate或者Bayes Rate。所以说，我们需要大概估计optimal error。

Machine Learning Yearning20~22

猜你喜欢