最小二乘法：

目标函数=∑（观测值-理论值）²
J(θ)=1/2(Xθ−Y)T (Xθ−Y)
迭代的表达式是：
θ=(XT X+αE)−1 XT Y
其中E为单位矩阵。

Ridge回归：

通过对系数的大小施加惩罚来解决普通最小二乘法的一些问题。它和一般线性回归的
区别是在损失函数上增加了一个L2正则化的项，和一个调节线性回归项和正则化项权
重的系数α。
J(θ)=1/2(Xθ−Y)T (Xθ−Y)+1/2α||θ||22
Ridge回归的解法和一般线性回归大同小异。如果采用梯度下降法，则每一轮θ迭代的
表达式是：
θ=θ−(βXT(Xθ−Y)+αθ)
其中β为步长。

Lasso回归：

Lasso回归有时也叫做线性回归的L1正则化，和Ridge回归的主要区别就是在正则化
项，Ridge回归用的是L2正则化，而Lasso回归用的是L1正则化。Lasso回归的损失
函数表达式如下:
J(θ)=1/2n (Xθ−Y)T (Xθ−Y)+α||θ||1
其中n为样本个数，α为常数系数，需要进行调优。||θ||1为L1范数。 
Lasso回归使得一些系数变小，甚至还是一些绝对值较小的系数直接变为0，因此特别
适用于参数数目缩减与参数的选择，因而用来估计稀疏参数的线性模型。 不过lasso
回归会使损失函数不是连续可导。

坐标轴下降法求lasso回归：

步骤：
1.给定初始点(x1,x2,...,xn)
2.固定除xi意外其他维度的点，以xi为自变量获取最小值
3.换个维度，重复2 

坐标下降法在每次迭代中在当前点处沿一个坐标方向进行一维搜索，固定其他的坐标
方向，找到一个函数的局部极小值。

最小角回归法求解Lasso回归：

1.前项选择算法：
求解Y=Xθ中的θ。其中Y为 mx1的向量，X为mxn的矩阵，θ为nx1的向量。m为样本数
量，n为特征维度。
把矩阵X看做n个mx1的向量Xi(i=1,2,…n),在Y的X变量Xi(i =1,2,…m)中，选择和
目标Y最为接近(余弦距离最大)的一个变量Xk，用Xk来逼近Y
,得到下式：
Y=Xk θk
其中：
θk = Xk,Y / ||Xk||2
2.前向梯度算法和前向选择算法有类似的地方,不再使用投影的方式，而是在最接近
的自变量Xt的方向上移动一小步，在观察与残差Yyes最接近的自变量，直到残差足够
小。 
3.最小角回归算法：
在缩小残差问题上，最小角回归采用的是延Xt和Xk的平分线走，不断缩小残差。
其主要的优点有：
1）特别适合于特征维度n 远高于样本数m的情况。
2）算法的最坏计算复杂度和最小二乘法类似，但是其计算速度几乎和前向选择算法一
样
3）可以产生分段线性结果的完整路径，这在模型的交叉验证中极为有用
主要的缺点是：
由于LARS的迭代方向是根据目标的残差而定，所以该算法对样本的噪声极为敏感。

Ridge回归、Lasso回归

最小二乘法：

Ridge回归：

Lasso回归：

坐标轴下降法求lasso回归：

最小角回归法求解Lasso回归：

猜你喜欢