【机器学习笔记】Machine Learning Fundamentals: Bias(偏差)、Variance(方差)、Overfit(过度拟合)

假设有一群老鼠,我们测量,并在二维坐标系中记录它们的身高以及对应的体重,这些点似乎都在某一条曲线的附近,但我们并不知道准确的方程式,所以我们可以使用两种机器学习的方法来估算它们的关系(直线和波纹线)。

我们要做的第一件事情是将数据划分成两个部分,一部分用作训练机械学习的算法,另一部分用作测试

我们要使用的第一种机器学习算法是线性回归(Linear Regression),也称作“最小二乘法”。

但无论我们怎样调整直线的角度,由于直线不能包含弧度,线性回归直线永远捕获不了 Height 与 Weight 的真正关系。

这种无法捕获的情况称为偏差(Bias)

训练模型中,比起直线,波浪线拥有更少的偏差。

而在测试模型中,比起直线,波浪线在每个点的落差平方和明显更大。

在机器学习中,数据集之间的拟合差异称为方差(Variance)

总结一下:

直线只能帮助我们较好地预测,而不能很好地预测,但是它可以一直起作 用;

我们很难确认波浪线是否符合我们的需求,它有时候可能刚好拟合未来的数据集,但有时候也可能千差万别。

由于波浪线过度贴合训练模型,而不符合测试模型。

所以这种过度贴合的情况称为过度拟合(Overfit)

发布了153 篇原创文章 · 获赞 184 · 访问量 5万+

猜你喜欢

转载自blog.csdn.net/Ha1f_Awake/article/details/102895232