线性回归分析知识总结

线性回归中可能遇到的问题

  • 求解损失函数的最小值有两种方法:梯度下降法以及正规方程。
  • 特征缩放:即对特征数据进行归一化操作,进行特征缩放的好处有两点,一是能够提升模型的收敛速度,因为如果特征间的数据相差级别较大的话,以两个特征为例,以这两个特征为横纵坐标绘制等高线图,绘制出来是扁平状的椭圆,这时候通过梯度下降法寻找梯度方向最终将走垂直于等高线的之字形路线,迭代速度变慢。但是如果对特征进行归一化操作之后,整个等高线图将呈现圆形,梯度的方向是指向圆心的,迭代速度远远大于前者。二是能够提升模型精度。
  • 学习率α的选取:如果学习率α选取过小,会导致迭代次数变多,收敛速度变慢;学习率α选取过大,有可能会跳过最优解,最终导致根本无法收敛。

过拟合问题及其解决方法

欠拟合问题,根本的原因是特征维度过少,导致拟合的函数无法满足训练集,误差较大。

欠拟合问题可以通过增加特征维度来解决。

过拟合问题,根本的原因则是特征维度过多,导致拟合的函数完美的经过训练集,但是对新数据的预测结果则较差

  • 解决方法:(1):丢弃一些对我们最终预测结果影响不大的特征,具体哪些特征需要丢弃可以通过PCA算法来实现;(2):使用正则化技术,保留所有特征,但是减少特征前面的参数θ的大小,具体就是修改线性回归中的损失函数形式即可,岭回归以及Lasso回归就是这么做的。

一 线性回归(最小二乘法)

假设我们有n个样本数据,每个数据有p个特征值,然后p个特征值是线性关系。

即对应的线性模型

写成矩阵的形式即是Y=XA

由于样本与模型不一定百分百符合,存在一些噪声,即误差,用B表示,B也是一个向量

即B=Y-XA

Y为样本值,XA为模型的计算值,即期望值

误差的平方的计算公式

Xi为行向量,A为列向量。

最小二乘法的目标就是取得最小的e对应的A,由于方差的计算是一个二次函数,即抛物线,对应存在一个最小值,即导数为0对应的A。所以对e求A的偏导数,再使其等于0,求解方程即可以获得A。

误差的平方e写成矩阵形式即为

对矩阵E取迹(迹就是矩阵对角线上所有元素的累加)且对迹求导后结果为一个矩阵。

即为 

展开为  

求导化简结果为

当A的维数比Y的维数多,即样本数量n少于特征值p的时候存在多个解,可能导致结果很不稳定,所以要确保n>p

X矩阵不存在广义逆(即奇异性)的情况:
1)X本身存在线性相关关系(即多重共线性),即非满秩矩阵。
当采样值误差造成本身线性相关的样本矩阵仍然可以求出逆阵时,此时的逆阵非常不稳定,所求的解也没有什么意义。
2)当变量比样本多,即p>n时.
这时,回归系数会变得很大,无法求解。在统计学上,可证明A的最小二乘解为无偏估计,即多次得到的采样值X而计算出来的多个系数估计值向量 的平均值将无限接近于真实值向量β。

二、局部加权线性回归

从上面可以看出,该曲线拟合的效果不是很好,存在着欠拟合的现象,但是对于正规方程来说这是最好的拟合曲线。所以我们想寻求一种方式对上述方法进行改进,从而降低估计时的均方误差。 
其中一种方法就是局部加权回归。该算法不像正规方程一样,对于所有的预测点,训练样本集上对它的作用是相同的,这种算法采用核的方法对于不同测试样本赋予训练样本不同权值,该方法求解出回归系数θθ的形式如下:

                                                                    

其中,W是一个矩阵,代表对于每个数据点赋予的不同权重。 
W确定的方式一般采用核的方法实现,其中最常用的核是高斯核,高斯核的确定方式为: 

                                                                         

上式中的k值决定了对于附近的点应该赋予多大的权值。高斯核的物理含义为:对于靠近测试点的样本点,赋予更大的权值距离测试点越远的样本点,权值越小。

三、 岭回归(Ridge Regression)

思路:在原先的A的最小二乘估计中加一个小扰动λI,是原先无法求广义逆的情况变成可以求出其广义逆,使得问题稳定并得以求解。

可以看到 变为满秩矩阵,可以求稳定的逆。

对应的推导过程如下:

上式子写成矩阵的形式为

对上式子采用一样的方式(求A的偏导数=0)可得

岭回归与最小二乘的区别在于这一项,称之为正则项,这一项可以看成是对A的各个元素,即各个特征的权的总体的平衡程度,也就是权之间的方差。

介绍一下误差(偏差)和方差

偏差bais

预测出来的数据与真实值的差距

方差 variance

预测出来的数据的分散程度

在二维的情况下可以这样来理解

RSS为误差

椭圆形抛物面为这一部分,圆柱形为这一部分,由最小二乘法求得的解是抛物面的最低点,由岭回归求得的解便是图中的黄点,一般来说,拟合的误差值(偏差)越小,A的各个元素(权)的方差越高,所以岭回归是找到一个方差不会太大,误差也不会太大的一个权衡的点,随着r增大,方差变大(随着增大,方差减小)。

岭回归性质
1)当岭参数为0,得到最小二乘解。
2)当岭参数λ趋向更大时,岭回归系数A估计趋向于0。
3)岭回归是回归参数A的有偏估计。它的结果是使得残差平和变大,但是会使系数检验变好。 
4)在认为岭参数λ是与y无关的常数时,是最小二乘估计的一个线性变换,也是y的线性函数。
但在实际应用中,由于λ总是要通过数据确定,因此λ也依赖于y、因此从本质上说,并非的线性变换,也非y的线性函数。
5)对于回归系数向量来说,有偏估计回归系数向量长度<无偏估计回归系数向量长度。


6)存在某一个λ,使得它所对应的的MSE(估计向量的均方误差)<最小二乘法对应估计向量的的MSE。
即  存在λ>0,使得
 

岭迹图
是λ的函数,岭迹图的横坐标为λ,纵坐标为A(λ)。而A(λ)是一个向量,由a1(λ)、a2(λ)、...等很多分量组成,每一个分量都是λ的函数,将每一个分量分别用一条线。
当不存在奇异性时,岭迹应是稳定地逐渐趋向于0

 

岭迹图作用:
1)观察λ较佳取值;
2)观察变量是否有多重共线性;

在λ很小时,A很大,且不稳定,当λ增大到一定程度时,A系数迅速缩小,趋于稳定。

λ的选择:一般通过观察,选取喇叭口附近的值,此时各β值已趋于稳定,但总的RSS又不是很大。
选择变量:删除那些β取值一直趋于0的变量。


岭参数的一般选择原则
选择λ值,使到
1)各回归系数的岭估计基本稳定;
2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;
3)回归系数没有不合乎实际意义的值;
4)残差平方和增大不太多。 一般λ越大,系数β会出现稳定的假象,但是残差平方和也会更大。



取λ的方法比较多,但是结果差异较大。这是岭回归的弱点之一。

岭回归选择变量的原则(不靠谱,仅供参考)
1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且值很小的自变量。
2)随着λ的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。
3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。

四、 LASSO回归

LASSO回归和岭回归的区别只在于正则项不同

两者的区别对应到图形上则是

图片中的黑色粗线,即为一个底面为正方形的柱体与抛物面的交点

从投影图看则更加的直观,lasso更容易产生解为0的情况,可以起到筛选变量的目的。

å²­åå½

è¿éåå¾çæè¿°

可以看到,Lasso回归最终会趋于一条直线,原因就在于好多θ值已经均为0,而岭回归却有一定平滑度,因为所有的θ值均存在。

猜你喜欢

转载自blog.csdn.net/qq_41951186/article/details/82466854