机器学习笔记02——线性回归

概念

线性回归假设输出变量是若干输入变量的线性组合,并根据这一关系求解线性组合中的最优系数。简单来说就是探索X和Y之间线性变量关系的函数

在众多回归分析的方法里,线性回归模型最易于拟合,其估计结果的统计特性也更容易确定,因而得到广泛应用。而在机器学习中,回归问题隐含了输入变量和输出变量均可连续取值的前提,因而利用线性回归模型可以对任意输入给出对输出的估计。

模型

假定一个实例可以用列向量 x=(x1​;x2​;⋯,xn​) 表示,每个 xi​ 代表了实例在第 i 个属性上的取值,线性回归的作用就是习得一组参数 wi​,i=0,1,⋯,n,使预测输出可以表示为以这组参数为权重的实例属性的线性组合。如果引入常量 x0​=1,线性回归试图学习的模型就是
在这里插入图片描述
在训练集上确定系数 wi​ 时,预测输出 f(x) 和真实输出 y 之间的误差是关注的核心指标。在线性回归中,这一误差是以均方误差来定义的。

当线性回归的模型为二维平面上的直线时,均方误差就是预测输出和真实输出之间的欧几里得距离,也就是两点间向量的 L2 范数。而以使均方误差取得最小值为目标的模型求解方法就是最小二乘法,其表达式可以写成
在这里插入图片描述
式中每个 xk​ 代表训练集中的一个样本。在单变量线性回归任务中,最小二乘法的作用就是找到一条直线,使所有样本到直线的欧式距离之和最小。对参数 w 的推导就可以用最大似然的方式进行,即在已知样本数据及其分布的条件下,找到使样本数据以最大概率出现的假设。

因此,对于单变量线性回归而言,在误差函数服从正态分布的情况下,从几何意义出发的最小二乘法与从概率意义出发的最大似然估计是等价的。

解决过拟合问题

要解决过拟合问题,常见的做法是正则化,即添加额外的惩罚项。在线性回归中,正则化的方式根据其使用惩罚项的不同可以分为两种,分别是“岭回归”和“LASSO 回归”。

岭回归

在机器学习中,岭回归方法又被称为“参数衰减”,于 20 世纪 40 年代由前苏联学者安德烈·季霍诺夫提出。当然,彼时机器学习尚未诞生,季霍诺夫提出这一方法的主要目的是解决矩阵求逆的稳定性问题,其思想后来被应用到正则化中,形成了今天的岭回归。

岭回归实现正则化的方式是在原始均方误差项的基础上添加一个待求解参数的二范数项,即最小化的对象变为 ∣∣yk​−wTxk​∣∣2+∣∣Γw∣∣2,其中的 Γ 被称为季霍诺夫矩阵,通常可以简化为一个常数。

从最优化的角度看,二范数惩罚项的作用在于优先选择范数较小的 w,这相当于在最小均方误差之外额外添加了一重关于最优解特性的约束条件,将最优解限制在高维空间内的一个球里。

岭回归的作用相当于在原始最小二乘的结果上做了缩放,虽然最优解中每个参数的贡献被削弱了,但参数的数目并没有变少。

LASSO 回归

LASSO 回归的全称是“最小绝对缩减和选择算子”(Least Absolute Shrinkage and Selection Operator),由加拿大学者罗伯特·提布什拉尼于 1996 年提出。与岭回归不同的是,LASSO 回归选择了待求解参数的一范数项作为惩罚项,即最小化的对象变为 ∣∣yk​−wTxk​∣∣2+λ∣∣w∣∣1​,其中的 λ 是一个常数。

与岭回归相比,LASSO 回归的特点在于稀疏性的引入。它降低了最优解 w 的维度,也就是将一部分参数的贡献削弱为 0,这就使得 w 中元素的数目大大小于原始特征的数目。

这或多或少可以看作奥卡姆剃刀原理的一种实现:当主要矛盾和次要矛盾同时存在时,优先考虑的必然是主要矛盾。虽然饮食、环境、运动等因素都会影响身高的变化,但决定性因素显然只存在在染色体上。

从概率的角度来看,最小二乘法的解析解可以利用正态分布以及最大似然估计求得。岭回归和 LASSO 回归也可以从概率的视角进行阐释:岭回归是在 wi​ 满足正态先验分布的条件下,用最大后验概率进行估计得到的结果;LASSO 回归是在 wi​ 满足拉普拉斯先验分布的条件下,用最大后验概率进行估计得到的结果。

但无论岭回归还是 LASSO 回归,其作用都是通过惩罚项的引入抑制过拟合现象,以训练误差的上升为代价,换取测试误差的下降。将以上两种方法的思想结合可以得到新的优化方法

猜你喜欢

转载自blog.csdn.net/david2000999/article/details/124327066