【机器学习笔记】Regularization : Ridge Regression（岭回归）

要点总览

比起简单的线性回归，岭回归会寻找一条不完全匹配训练模型的直线，也就是存在一定的偏差（Bias），但对于测试模型来说，数据集的方差（Variance）会大幅下降。

换言之，岭回归通过在开始时减少一定的匹配程度，以达到更好的预测效果。

网上找到的解释是：岭回归是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。

那么我们如何确定lambda的取值？

对于线性回归来说，在下面的等式中，y轴截距的数值等于Normal Diet对应的Size的平均值；斜率的数值等于High Fat Diet对应的Size的平均值与Normal Diet的对应平均值之差（之后将这个差值称为offset）。

当用岭回归来决定y轴截距和斜率的数值时，岭回归补偿值等于 lambda x offset²。

当lambda=0时，会得到与线性回归相同的方程；

当lambda值增大时，只有一种方法可以最小化岭回归补偿值，那就是减少offset的值。换言之，当lambda值增大时，我们对High Fat Diet 的Size值的预测与offset的相关性会越来越小。

与此同时，岭回归补偿值也会发生变化，它会包含除y轴截距以外的所有参数的平方之和。

二维坐标中有两个变量，根据两点确定一直线，我们至少需要两个点来得出最小二乘法的解决方案；在三维坐标中有三个变量，根据三点确定一个面，我们至少需要三个点来得出最小二乘法的解决方案；四维、五维...如此类推

但如果我们的测试数据少于，甚至远少于参数的个数，如何得到一个解决方案？

—— 这时候岭回归带着交叉验证站了出来。

（未完待续）

至肝主义圈毛君

发布了153 篇原创文章 · 获赞 184 · 访问量 5万+

私信关注