线性模型-线性回归

一、线性回归
注:所有的上标表示第i样本,下标表示第j个特征或参数 的第j个分量。
假设有数据有 T = { ( x ( 1 ) , y ( 1 ) ) , . . . , ( x ( i ) , y ( i ) ) , . . . , ( x ( m ) , y ( m ) ) } 其中 x ( i ) = { x 1 ( i ) , . . , x j ( i ) , . . . , x n ( i ) } , y i R 。其中m为训练集样本数,n为样本维度,y是样本的真实值。线性回归采用一个高维的线性函数来尽可能的拟合所有的数据点,最简单的想法就是最小化函数值与真实值误差的平方(概率解释-高斯分布加最大似然估计)。即有如下目标函数:

(1) J ( θ ) = 1 2 i = 1 m ( h θ ( x ( i ) ) y ( i ) ) 2 min θ J ( θ )

其中线性函数如下

(59) h θ ( x ( i ) ) = θ 0 + θ 1 x 1 ( i ) + θ 2 x 2 ( i ) + . . + θ n x n ( i ) = j = 1 n θ j x j ( i ) = θ x ( i )

构建好线性回归模型的目标函数之后,接下来就是求解目标函数的最优解,即一个优化问题。常用的优化方法都可以拿来用,这里以梯度下降法来求解目标函数。

(60) θ j = θ j α θ j J ( θ ) = θ j α θ j 1 2 i = 1 m ( h θ ( x ( i ) ) y ( i ) ) 2 = θ j α i = 1 m ( h θ ( x ( i ) ) y ( i ) ) θ j = θ j α i = 1 m ( h θ ( x ( i ) ) y ( i ) ) x j ( i )

另外,线性回归也可以从最小二乘法的角度来看,下面先将所有样本向量化,数据集特征构成矩阵X。
\begin{equation} \begin{split}\mathbf{X}=\begin{bmatrix}-\left ( x^{(1)} \right )^{T}- \right \\ -\left ( x^{(2)} \right )^{T}- \right \\ --.- -\\ -\left ( x^{(m)} \right )^{T}- \right \end{bmatrix} \end{split}\end{equation}

那么目标函数向量化形式如下:

可以看出目标函数是一个凸二次规划问题,其最优解在导数为0处取到,矩阵导数详细参考()。

值得注意的上式中存在矩阵的逆,一般来讲当样本数大于数据维度时,矩阵可逆,可以采用最小二乘法求得目标函数的闭式解。当数据维度大于样本数时,矩阵线性相关,不可逆。此时最小化目标函数解不唯一,且非常多,出于这样一种情况,我们可以考虑奥卡姆剃刀准则来简化模型复杂度,使其不必要的特征对应的w为0。所以引入正则项使得模型中w非0个数最少。当然,岭回归,lasso回归的最根本的目的不是解决不可逆问题,而是防止过拟合。
二、岭回归和Lasso回归
岭回归的目标函数在一般的线性回归的基础上加入了正则项,在保证拟合误差的同时,使得参数尽可能的“简单”,使得模型的泛化能力强(即不过分相信从训练数据中学到的知识)。正则项一般采用一,二范数,使得模型更具有泛化性,同时可以解决线性回归中不可逆情况。

其迭代优化函数如下:

另外从最小二乘的角度来看,通过引入二范正则项,使其主对角线元素来强制矩阵可逆。

Lasso回归采用一范数来约束,使参数非零个数最少,至于为何不用零范数可以参考()。而Lasso和岭回归的区别很好理解,在优化过程中,最优解为函数等值线与约束空间的交集,正则项可以看作是约束空间。可以看出二范的约束空间是一个球形,而一范的约束空间是一个方形,这也就是二范会得到很多参数接近0的值,而一范则尽可能非零参数最少。

值得注意的是线性模型的表示能力有限,但是并不一定表示线性模型只能处理线性分布的数据。这里有两种常用的线性模型非线性化。对于上面的线性函数的构造,我们可以看出模型在以x0,x1..的坐标上是线性的,但是并不表示线性的模型就一定只能用于线性分布问题上。假如我们只有一个特征x,而实际上回归值是 等,我们同样可以采用线性模型,因为我们完全可以把输入空间映射到高维的 空间,其实这也是核方法以及PCA空间变换的一种思想,凡是对输入空间进行线性,非线性的变换,都是把输入空间映射到特征空间的思想,所以只需要把非线性问题转化为线性问题即可。另外一种是局部线性思想,即对每一个样本构建一个加权的线性模型。

三、局部加权线性回归
考虑到线性回归的表示能力有限,可能出现欠拟合现象。局部加权线性回归为每一个待预测的点构建一个加权的线性模型。其加权的方式是根据预测点与数据集中点的距离来为数据集中的点赋权重,当某点距离预测点较远时,其权重较小,反之较大。由于这种权重的机制引入使得局部加权线性回归产生了一种局部分段拟合的效果。由于该方法对于每一个预测点构建一个加权线性模型,都要重新计算与数据集中所有点的距离来确定权重值,进而确定针对该预测点的线性模型,计算成本高,同时为了实现无参估计来计算权重,需要存储整个数据集。
局部加权线性回归,在线性回归基础上引入权重,其目标函数(下面的目标函数是针对一个预测样本的)如下:

一般选择下面的权重函数,权重函数选择并非因为其类似于高斯函数,而是根据数据分布的特性,但权重函数的选取并不一定依赖于数据特性。

其中x是待预测的一个数据点, 是一个超参数。

对于上面的目标函数,我们的目标同样是求解 使得损失函数最小化,同样局部加权线性回归可以采用梯度的方法,也可以从最小二乘法的角度给出闭式解。

线性回归核心思想最小化平方误差,可以从最小化损失函数和最小二乘角度来看,优化过程可以采用梯度方法和闭式解。在闭式解问题中需要注意矩阵可逆问题。考虑到过拟合和欠拟合问题,有岭回归和lasso回归来防止过拟合,局部加权线性回归通过加权实现非线性表示。

猜你喜欢

转载自blog.csdn.net/u010865478/article/details/80953505