机器学习算法——回归算法总结(二)——岭回归和Lasso回归

思考以下几个问题
1.线性回归中存在的问题:

当数据集中特征之间有较强的线性相关性时,用普通的最小二乘法估计模型参数,往往参数估计的方差太大,缺乏稳定性和可靠性。

2. 什么是岭回归

岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法。通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为实际和可靠的回归方法,对病态数据拟合能力优于最小二乘法。

3. 岭回归为什么对病态数据有较好的拟合能力?

岭回归模型是在平方误差的基础上增加正则性(L2范数):
在这里插入图片描述
L2范数正则化项可以使回归系数(特征的权重)进行衰减。只有在显著减少目标函数方向上的参数会保留的相对完好,在无助于目标函数减少的方向上的分量会在训练过程中因正则化而衰减掉。

4 岭回归和Lasso回归的联系和区别:

Lasso回归 (L1范数正则化)
在这里插入图片描述
岭回归和Lasso回归都会对回归系数(特征权重)造成影响。岭回归应用的是L2范数会导致有些回归系数变的很小(不重要方向)但只要不加正则化之前求出的系数不为0,正则化后的系数也不会为0(不会造成稀疏化)
Lasso 回归直接会使得很多不重要的系数直接变成0造成稀疏化,常用来进行特征选择。

猜你喜欢

转载自blog.csdn.net/qq_16608563/article/details/82856135