岭回归，Lasso——变量选择技术

其他 2018-07-11 20:13:57 阅读次数: 0

本文内容主要基于炼数成金机器学习课程，并且LAR部分参考了文章Lasso算法学习。

解决多重共线性和变量选择的两种方法——岭回归&Lasso。

1 多元线性回归的最小二乘解

Q(β)是残差的平方和的向量化表示，求偏导后得到的解为最小二乘估计； 6.22式中矩阵的-1表示的是广义求逆（矩阵只有n*n才能求逆，广义求逆可以针对所有的矩阵）。

多元线性回归的几何意义：求最小的y-β1X1-β2X2……其实就是求向量y到平面β1X1+β2X2……的最短距离（垂直距离）。

出现以下两种情况时影响求解：

2 岭回归

加入了一个扰动kI。

3.41的最后一项称为惩罚函数，它和3.42描述的问题是一样的。

岭回归的几何意义：

RSS表示的是残差平方和。约束项βi的平方和≤t在集合中表示为一个圆柱（二维情况时），它与残差的交点就是（β1, β2）。如下图所示：

画在一个切面图上：

岭回归性质：

（最小二乘法是无偏估计）

（岭回归比最小二乘法更能接近真值，虽然它平均上有偏差）

岭迹图可以用于判断多重共线性。

3 LASSO

（左上为岭回归，右下为LASSO）

（左为LASSO，右为岭回归）

岭估计系数通常不会为0——椭圆不断扩大，会和圆相切交一点（即为岭估计系数）。这一点在圆周上的位置通常不会取到0（椭圆碰到坐标轴上的圆周上的点的概率很低）。

对比岭回归，LASSO的约束条件用的是绝对值，在几何上解释为一个菱形。随着椭圆增大，椭圆与菱形突出的顶点相交的概率很大（即回归系数等于0）。

（弹性网目前处理的效果最好）

4 LASSO的计算方法

最小角回归算法

这里LSE指的是Least Squares Error。

算法过程：

在介绍LAR之前，先要说明一下有关相关系数的知识补：

r表示X，Y的相关性，r越高，X，Y就越相关，若X，Y是二维向量，就说明X，Y两个向量越接近（可以被互相表示）

通常情况下通过以下取值范围判断变量的。

相关系数相关强度：

0.8-1.0 极强相关

0.6-0.8 强相关

0.4-0.6 中等程度相关

0.2-0.4 弱相关

0.0-0.2 极弱相关或无相关

如果这里我们假设Xi，Yi与，计算的结果为二维单位向量，再反观r的计算公式：

该手稿转自http://f.dataguru.cn/thread-448966-1-1.html（炼数成金），可以发现r最终就是X，Y标准化后的夹角余弦值。

所以夹角越小，cosθ就越大，越接近1，即表示相关系数越大。（也可以解释相关系数的取值范围[-1,1]）

解释完相关系数，就让我们正式进入LAR的学习。

1）r表示的是向量Y和Xi之间的残差向量

2）找到和Y向量夹角最小的向量Xi，记最初夹角为θ0（图中即角1）。Y与Xi的局部最小二乘解（即为Y到Xi的距离，图中的垂直虚线）。从原点出发，沿着Xi，向这个局部最小二乘解移动。随着移动，残差向量r会趋于图中的垂直虚线；最初的夹角1也渐渐变为夹角2，并不断趋于90°；Xi与r之间的相关系数不断减小，趋于0。

3）在这个变化的过程中，总有某一时刻，另一个变量Xj与r之间的相关系数，与Xi与r之间的相关系数一样大。这个时候我们就把Xj加入。Xj加入后，前进的方向要进行修正（不在沿着Xi了），修正为Xi与Xj夹角的角平分线方向（图中酒红色线，需先将Xj平移才能得到）。

4）重复3步骤，直到所有X分量都被包含。最终找到残差向量r与所有X之间相关系数都为0的点。

解释图：

猜你喜欢

转载自blog.csdn.net/m0_37622530/article/details/80954276

岭回归，Lasso——变量选择技术

机器学习(四)变量选择技术----------岭回归，Lasso

岭回归与Lasso回归

岭回归、LASSO回归

Lasso回归与岭回归

岭回归、lasso

岭回归与Lasso

lasso与岭回归的差异

回归，岭回归。LASSO回归等

特征工程—2.为什么Lasso回归可以做特征选择(变量挑选)而岭回归做不到呢？

岭回归和Lasso回归

线性回归、岭回归、Lasso回归

线性回归、岭回归（Ridge）与Lasso回归

Lasso回归系列二：Lasso回归/岭回归的原理

正则化+岭回归+Lasso回归

正则化与岭回归和lasso回归

机器学习--Lasso回归和岭回归

岭回归和LASSO回归的区别

数学建模--岭回归和Lasso回归

[机器学习] - 岭回归与Lasso回归

Lasso回归和岭回归的底层实现

岭回归、LASSO与LAR的几何意义

岭回归，LASSO和LAR学习

11.Lasso 岭回归的调用

岭回归（ridge回归）、lasso回归、ElasticNet回归

线性回归、岭回归、Lasso回归、逻辑回归的总结

均值回归、分位数回归、岭回归、Lasso回归

机器学习入门线性回归岭回归与Lasso回归(二)

机器学习总结(一)：线性回归、岭回归、Lasso回归

机器学习：线性回归、岭回归、Lasso回归

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)