机器学习-Bias-Variance

  • 对Bias和Variance的来源的解释

Bias:来源于训练集中没有的,测试集中存在的data产生的。

Variance:来源于训练集里有的,但是测试集里没有的,且不应该属于ground truth的data(这里其实有个假设:就是test data认为是没有噪音的,完全是ground truth)。

三个值

  • h相当于模型对训练集不含有variance的数据进行拟合产生的最佳模型。
  • f相当于对测试集数据应该产生的模型
  • y相当于对训练集含有噪声的数据应该产生的模型

最希望的模型:
 

几种现象组合

  high variance low variance
high bias

测试集数据和训练集数据严重不符

训练集数据也有大量噪声。

测试集有大量groundtruth训练集没有。

欠拟合
low bias 过拟合 good model

几个解决欠拟合和过拟合的方法通过bias和variance理解:

assumption:

如果数据足够好,bias应该是非常少的,更多的可能是train sample中的variance更多些。

数据端影响:

  • Bagging:(单个subset更少)每个model的subset data包含的variance更少,假设比例不变,这样每个模型variance更小。(多个subset)同时有多个subdata set,让每个model能看到的train和test都能见到的数据更多,解决bias问题。第一个模型出现的bias,靠其他模型看到过test数据集有,第一个subset没有的数据,来弥补。
  • 扩充高质量数据集:稀释variance,减少bias
  • 特征选择,减少特征:减少variance发生的列,减少variance影响。

模型端影响:

  • 正则化:问题来源:high variance。削弱模型对指定特征的学习能力,减少了高variance的风险。
  • 简单模型:减少学习variance能力,当然也同时削弱了预测bias的能力。
  • 复杂模型:对variance和bias数据都增强了拟合能力。
  • 扩展特征:扩充bias可能性增加,同时有增加variance风险。将数据升维,更改数据的排布,让训练和测试集的分布更加贴近。

参考文章:http://www.cs.cmu.edu/~wcohen/10-601/bias-variance.pdf

友情推荐:ABC技术研习社

为技术人打造的专属A(AI),B(Big Data),C(Cloud)技术公众号和技术交流社群。

猜你喜欢

转载自blog.csdn.net/gao8658/article/details/81332940