Title: 回归专题-1 | 线线性回归基础

导读

① 线性回归（又称线性模型），通过一个或者多个预测变量（X）来预测定量结局变量（Y）^[1]。
② 目标是建立一个数学公式，将y定义为x变量的函数。统计模型一旦建立，就可以通过对新加入的变量进行预测。
③ 回归模型的建立，需要评估估计模型的性能。也就是说，需要知道通过回归模型预测新加入的变量的准确性如何，准确性越高，说明该模型的构建是成功的。

评价模型预测性能的两个常用度量值：

均方根误差（Root Mean Square Error, RMSE），用来表示模型预测的误差。也就是观察值与模型预测的估计值之间的差异是多少，计算公式为：

RMSE值越小，模型越好
R的平方（也可以称为决定系数），表示的是观察值和预测值之间的相关系数的平方，R²值越大，模型越好

简单线性回归的学习流程

图二模型构建步骤

公式

线性回归的数学公式如下：
图三线性回归方程

如果有多个预测变量的话，公式则可以写成 y= b0 + b1*x1 + b2*x2 + ... + bn*xn:
- b0 是截距
- b1,b2,…,bn是回归权重或者说是与变量x1,x2,…xn相关的回归系数
- e就是误差（也称为残差），y中能被回归模型解释的那一部分方差
下面这幅图很直观的说明了简单回归模型的特点
- 蓝色线使得模型拟合最好
- 截距和斜率（回归权重）用绿色表示
- 残差表示的是每个点到拟合直线的垂直距离

可以看到，并不是每个点都落在回归线上，有在回归线上面或者下面的，总之，剩余残差的平均值接近于0。剩余残差的平方和称为残差平方和（Residual Sum of Squares, RSS）。拟合回归线周围的点的平均方差叫做剩余标准误（Residual Standard Error, RSE）,也用于评价拟合回归模型的总体质量，该值越小说明回归线拟合的越好

因为平均误差可以认为是等于0，所以结局变量可以近似表示为：
y ~ b0 + b1*x
一般来讲，b0和b1一般取RSS为最小值的时候的值。也即是最小二乘法的原理,或者叫普通最小二乘

一旦b0和b1确定下来，那么就立马执行对回归系数的t-检验，即回归系数是否显著大于或小于0。非零的回归系数说明预测变量与结局变量显著相关。

加载R包

这里用到两个R语言包

tidyverse用于数据处理和图形展示
caret用于机器学习流程

library(tidyverse)
library(caret)
theme_set(theme_bw())

数据准备

这里用到一个现存的数据集marketing，通过三大广告媒体所花费的金额来预测其销售额
随后我们将数据集随机分为训练集（80%的数据用于构建一个回归模型）和测试集（20%的数据用来评估模型的性能）。为了获得可重复的结果，需设定种子

# Load the data，加载数据
data("marketing", package = "datarium")
# Inspect the data，随机查看数据
sample_n(marketing, 3)

图五数据概略

# Split the data into training and test set，拆分数据
set.seed(123) # 设定种子以获得可重复结果
training.samples <- marketing$sales %>%
  createDataPartition(p = 0.8, list = FALSE)
train.data  <- marketing[training.samples, ]
test.data <- marketing[-training.samples, ]

计算线性回归

R语言里的lm()函数用于计算线性回归模型

快速构建线性回归模型

# Build the model
model <- lm(sales ~., data = train.data) # 用训练集数据构建模型
# Summarize the model
summary(model)
# Make predictions #
predictions <- model %>% predict(test.data) # 用测试集数据预测模型的准确性
# Model performance # 通过上述两个指标来说明模型的综合性能
# (a) Prediction error, RMSE
RMSE(predictions, test.data$sales)
# (b) R-square
R2(predictions, test.data$sales)

简单线性回归

简单线性回归用于单个预测变量来预测连续的结局变量，这里先用youtube这个变量来构建简单线性回归模型

model <- lm(sales ~ youtube, data = train.data)
summary(model)$coef

结果如下：
结果解释：

结果显示了回归系数的估计值（也就是Estimate那一列）以及他们的显著性水平（Pr|t|那一列）。可以看到截距b0为8.38，youtube的回归系数为0.046
如此，回归方程就可以表示为：scales = 8.38 + 0.046*youtube，通过这个等式，那么就可以预测新加入的youtube变量

多重线性回归

多重线性回归是简单线性回归的拓展，不同的地方就是预测变量可以是多个
比如本例中的三个预测变量与结局变量的关系则可以写成：y = b0 + b1x1 + b2x2 + b3*x3
这里的回归系数代表每个预测变量与结局变量的相关。bj表示固定其他预测变量后，xj每增加一个单位，y变化的平均效应

model <- lm(sales ~ youtube + facebook + newspaper, 
            data = train.data)
summary(model)$coef

值得注意的是，当预测变量较多时，回归方程可以简写为y ~ .，这样就是包括全部的变量，如下所示

model <- lm(sales ~., data = train.data)
summary(model)$coef

结果如下
结果解释：

如上结果所示，回归系数表展示了beta回归西施估计值以及显著性p值

估计值（Estimate）：截距b0,以及其它与预测变量相关的beta回归系数估计值
回归系数标准误（Std.Error）：回归系数估计值的标准误，表示回归系数的准确性。标准误越大，回归系数的可信度越小
t统计量（t value）：即t-统计量，是用回归估计值除以回归系数标准误得到的比值
P值（Pr(>|t|)）：对应于t-统计量的P值，P值越小，估计值越有意义
如果有不显著的预测变量，比如这里的newspaper，说明当固定其它两个变量之后，newspaper的变化不会显著的影响结局变量，也就是销售额。

模型的准确性诊断

一旦模型被确定下来，至少有一个预测变量与结局变量显著相关，接下里就应该对模型拟合数据的程度进行诊断。这个过程也叫拟合优度（goodness-of-fit），线性回归拟合的质量可以用下面三个统计量来表示：

剩余标准误

R平方值，决定系数（R²）以及校正的R²

F-统计量

剩余标准误
RSE在前面已经描述过，RSE越小证明模型拟合的越好。另外一个就是将RSE除以结局变量的平均值可以得到另外一个度量值——估计错误率（prediction error rate）
R²和adjust R²
R²的取值范围在(0,1)，它的含义表示结局变量的变化可以被预测变量解释的比例。在简单线性回归中，R²就是结局变量和预测变量之间的皮尔逊相关系数的平方。而在多重线性回归中，R²则表示结局变量和预测变量之间的相关系数。R²值越大，说明模型越好。这里引入一个adjust R²的概念，因为在多种线性回归中，有时候增加变量而使R²值升高是虚假的，所以R²的提高要考虑模型中添加的预测变量的个数
F-统计量
F-统计量给出了模型的总体意义，评估的是模型中是否至少有一个不为0的回归系数，在简单线性回归中，F-统计量就是重复了t检验的结果。而在多元线性回归中则显得非常重要，F-统计量越大，往往对应着显著性的p值

预测

通过测试数据集对模型的性能进行简单的评估，主要过程如下：

对新加入的预测变量进行结局变量的预测

通过计算RMSE的值和R²值来评估模型的性能

# Make predictions
predictions <- model %>% predict(test.data)
# Model performance
# (a) Compute the prediction error, RMSE
RMSE(predictions, test.data$sales)

RMSE结果为： ## [1] 1.58

# (b) Compute R-square
R2(predictions, test.data$sales)

R²值为： ## [1] 0.938

上面的结果可知，R²的值是0.93，说明观察值和预测值之间的相关性非常高，说明线性回归拟合度很好。估计误差值RMSE为1.58，则错误率为1.58/mean(test.data$scales)=1.58/17=9.2%，这个结果说明模型拟合的比较好

讨论

这篇文章主要对线性回归的基础进行了描述，并且通过实例演示如何去构建一个线性回归模型以及通过什么指标去衡量模型的性能，但是需要注意的是：

线性回归是基于预测变量和结局变量之间是一种线性关系的假设，这可以通过简单的散点图作图看出，比如下面的方法就画了youtube因变量和响应变量之间的散点图

ggplot(marketing, aes(x = youtube, y = sales)) +
  geom_point() +
  stat_smooth()

图八线性散点图

参考

[1] James et al. 2014,P. Bruce and Bruce (2017)
[2] http://www.sthda.com/english/articles/40-regression-analysis/165-linear-regression-essentials-in-r/
注：如果我们对文章理解有偏差，非常欢迎大家向我们反馈，我们会认真阅读并修改，另外有愿意加入我们的小团队的老师和同学可发送邮件至我们的邮箱：<[email protected]> 祝大家科研顺利，生活开心！
想要了解更多内容请访问我们深度基因网站地址：<http://deepgener.wordpress.com/>

回归专题-1-线性回归基础