线性回归原理和实践--《机器学习实战》笔记

回归与分类的区别

和分类问题一样，回归问题也是预测目标值的过程。回归与分类不同点在于，前者预测连续型变量，后者预测离散型变量。

线性回归

结果易于理解
对非线性的数据拟合不好
适用于数值型和标称型数据

线性回归步骤

将标称型数据编码为二值数据(one-Hot编码)
训练算法得到回归系数
利用 $R^2$ 评价模型
使用回归系数预测数据

回归系数

对于给定的训练数据集 $x$ 如何训练得到回归系数 $w$ 呢？常用的是采用平方误差最小原则，也就是:

m i n \sum i = 1 N (y i - x T i w) 2

$min\sum_{i=1}^N(y_i-x_i^Tw)^2$

用矩阵表示可以表示为 $(y - Xw)^T(y-Xw)$ 。对 $w$ 求导，有 $X^T(Y-Xw)$ ,关于标量与向量求导内容可参考。令导数为零有：

w^= (X T X) - 1 X T Y

$\hat w = (X^TX)^{-1}X^TY$

w $w$ 的帽子符号代表估计的最优解。由于包含

X−1 $X^{-1}$ 项，因此这个方程只有

X $X$ 存在逆矩阵时才能使用。当矩阵为奇异矩阵时(特征数量多于样本数)，可以采用后面介绍的岭回归。我的 github里有简单线性回归的python代码。

局部加权线性回归

简单线性回归容易出现欠拟合的现象，也就是说模型对一些线性关系不是很好的训练集误差较大，因此有人提出局部加权线性回归的方法。该算法给待预测点附近的每个点赋予一定权重，距离越近权重越大。加权之后再进行普通线性回归。因此，这种算法每预测一次都需要选择预测点附近的数据子集。因此 $w$ 的形式如下：

w^= (X T W X) - 1 X T W y

$\hat w = (X^TWX)^{-1}X^TWy$
其中

W $W$ 是一个矩阵，代表每个点的权重。
一般我们可以采用高斯核(与SVM中的核函数意义相近)来表示每个点的权重:

W i, i = e x p (- | x ( i ) - x | 2 σ 2)

$W_{i,i} = exp(-{|x^{(i)}-x| \over 2\sigma^2})$
这样得到的

W $W$ 权重矩阵只有对角元素，且权重大小与数据点距离待测量点距离成反比，最大权重为1，最小权重趋向于0，我们可以通过调整

σ $\sigma$ 参数来决定附近点的权重大小，

σ $\sigma$ 越小则附近点权重越大，也就是说权重随距离衰减得越快。下图可以看出不同

σ $\sigma$ (图中为k,我习惯使用

σ $\sigma$ 表示高斯核的参数)对数据点权重的影响。

σ $\sigma$ 越小，越容易过拟合，因此需要调参确定k的取值。
这里写图片描述

局部加权回归的优缺点

缺点：每次进行预测时，算法都需要用到整个数据集，因此占用了很多空间和时间
优点 : 能够解决简单线性回归欠拟合的缺点，通过调参也可以缓解过拟合的情况

缩减方法

前面说到，如果 $X_TX$ 是奇异矩阵，也就是说数据特征比样本数多的话，就无法进行求逆操作。为了解决这个问题，必须缩减数据，因此统计学家引入了岭回归的概念。

岭回归

岭回归实际上就是在 $X_TX$ 上加了个 $\lambda I$ ，这样就能把非满秩矩阵转化为满秩矩阵进而求逆，由于矩阵 $\lambda I$ 只有对角线元素不为0，因此和山岭类似，故称之为岭回归。因此岭回归的回归系数方程为：

w^= (X T X + λ I) - 1 X T y

$\hat w= (X^TX + \lambda I)^{-1}X^Ty$
岭回归可以用于处理特征数量多于样本数的回归问题，还能引入估计偏差(引入罚项)，进而有更好的泛化能力。
需要注意的是，由于岭回归引入了

λ $\lambda$ 单位矩阵，因此需要对特征进行标准化处理,使得每个特征具有相同的重要性。一般做法为所有特征减去均值并除以特征方差。

lasso

岭回归相当于给回归系数 $w$ 增加了一个平方惩罚项：

m i n (\sum i = 1 N (y i - x T i w) 2 + λ \sum j = 1 m w 2 j)

$min(\sum_{i=1}^N(y_i-x_i^Tw)^2 + \lambda \sum_{j=1}^mw_j^2)$
根据拉格朗日乘子法可知，岭回归相当于给普通线性回归增加了一个约束，可以等价于：

w^= a r g s m i n (\sum i = 1 N (y i - x T i w) 2)

$\hat w = argsmin(\sum_{i=1}^N(y_i-x_i^Tw)^2 )$

s u b j e c t t o . \sum j = 1 m w 2 j \leq λ

$subject\space to.\sum_{j=1}^mw_j^2 \le \lambda$
从这种约束表达形式来看，我们也能更好的理解为什么岭回归要对数据进行标准化处理，如果不进行标准化，那么有可能个别特征的回归系数就会很大，导致别的特征回归系数很小。而lasso方法就是将约束条件改为

\sum j = 1 m | w j | \leq λ

$\sum_{j=1}^m|w_j |\le \lambda$
虽然形式只是平方项变为绝对值，但是却大大增加了计算的复杂度，lasso约束在

λ $\lambda$ 很小时，会让一些系数更趋于0(岭回归还需要平方)，因此能够让人更好的理解数据。但是由于复杂度原因，我们一般可以采用一种效果接近，但是计算简单的算法–前向逐步回归。

前向逐步回归

前向逐步回归是一种迭代贪心算法，每一步都尽可能减小误差。具体算法步骤如下所示

数据标准化使数据满足0均值，单位方差
迭代一定次数，在每次迭代过程中：
1. 设置当前最小误差lowestError为正无穷
2. 对每个特征：
  - 增大或缩小:
    1. 改变一个系数得到新的权重 $W$
    2. 计算权重 $W$ 的平方误差
    3. 若小于最小误差，则设最小误差为当前误差，设置 $Wbest$ 为当前 $W$
  - 将 $W$ 设置为新的 $Wbest$

采用前向迭代回归可以帮助对模型的理解，可以找出重要的特征。

缩减方法(岭回归或前向迭代回归)能够增强模型泛化能力，同时也带来了一定得偏差。在偏差(bias)与方差(variance)的平衡中,可以通过交叉验证等方法选择最优模型。