一元线性回归模型

前言

本文主要介绍了一元线性回归模型的数学模型，回归参数估计，三种显著性检验（ $F$ 检验， $R^2$ 判定系数，估计标准差），并给出了使用最小二乘法推导回归参数的详细过程。

1, 数学模型

假设 $Y=a+bX+\epsilon$ ，其中:

$X$ 是可控变量；
$Y$ 是随机变量
$a+bX$ 是 $Y$ 随着 $X$ 变化而线性变化的部分;
$\epsilon$ 是随机误差，它是其他的一切微小的，不确定的影响因素的总和，其值具有不可观测行，通常假定 $\epsilon\sim N(0,\sigma^2)$ 。

函数 $f(X) = E(X|Y) = a+bX$ 称为一元线性回归函数，其中:

$a$ 为回归常数， $b$ 为回归系数， $a$ 和 $b$ 统称为回归参数;
$X$ 为回归自变量;
$Y$ 为回归因变量。

假定 $(x_1,y_1),(x_2,y_2,\cdots,(x_n,y_n))$ 是 $(X,Y)$ 的一组观测值，则一元线性模型可以表示为

\begin{matrix} (1) & \begin{matrix} (8) & y_{i} = a + b x_{i} + ϵ_{i}, ϵ_{i} \sim N (0, σ^{2}), i = 1, 2, \dots, n \end{matrix}) \end{matrix}

$\begin{gather} y_i = a+bx_i+\epsilon_i,\epsilon_i \sim N(0,\sigma^2),i=1,2,\cdots,n \end{gather}) \tag{1}$

其中，各 $\epsilon_i$ 相互独立。

2, 回归参数的估计

使用最小二乘原理，估计回归参数 $a$ 和 $b$ ，使得误差平方和 $\sum\limits_{i=1}^n\epsilon^2=\sum\limits_{i=1}^n(y_i-a-bx_i)^2$ 最小，

即： $Q(a,b) = \sum\limits_{i=1}^n(y_i-a-bx_i)^2$ 取最小值。

求 $Q$ 关于 $a$ 和 $b$ 的一阶偏导数，并使它们为0，解得 $b$ 的最小二乘估计为:

\begin{matrix} (2) & \begin{aligned} (9) & b = \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})^{2}}{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} = \frac{L_{x y}}{L_{x x}} \end{aligned} \end{matrix}

$\begin{align} b=\frac {\sum\limits_{i=1}^n(x_i-\overline{x})(y_i -\overline{y})^2} {\sum\limits_{i=1}^n(x_i-\overline{x})^2}=\frac{L_{xy}} {L_{xx}} \end {align} \tag{2}$
其中：

$\overline {x} = \frac 1 n \sum\limits_{i=1}^nx_i$
$\overline {y} = \frac 1 n \sum\limits_{i=1}^ny_i$
$L_{xy}=\sum\limits_{i=1}^n(x_i-\overline{x})(y_i -\overline{y})^2$
$L_{xx}=\sum\limits_{i=1}^n(x_i-\overline{x})^2$

这样， $b$ 和 $a$ 的最小二乘估计可以写成

\begin{matrix} (3) & {\begin{cases} \hat{b} = \frac{L_{x y}}{L_{x x}} \\ \hat{a} = \bar{y} - \hat{b} \bar{x} \end{cases} \end{matrix}

$\begin {cases} \hat b =\frac {L_{xy}} {L_{xx}} \\ \hat a = \overline{y} - \hat b \overline x \end{cases} \tag{3}$
在得到

\hat{a}

$\hat a$ 和

\hat{b}

$\hat b$ 后，称

\hat{Y} = \hat{a} + \hat{b} X

$\hat Y = \hat a+\hat bX$ 为一元回归方程。

通常取参数 $\sigma ^2=\frac 1 {n-2} \sum\limits _{i=2}^n(y_i-\hat a-\hat bx_i)^2$ 为参数 $\sigma ^2$ 的估计（最小二乘估计），并且是无偏估计。

3,回归方程显著性检验

对于一元回归方程进行检验等于检验

H_{0} : b = 0 H_{1} : b \neq 0

$H_0:b=0 \\ H_1:b \ne0$

3.1 平方和的分解

为寻找检验 $H_0$ 的方法，将 $X$ 对 $Y$ 的线性影响与随机波动引起的变差分开，变差的大小用实际观察值 $y$ 与其均值 $\overline y$ 之差 $y-\overline y$ 来表示。
而n次观察值的总变差可由离差的平方和 $SS_T$ 来表示

\begin{matrix} (10) & \begin{aligned} S S_{T} = \sum_{i = 1}^{n} (y_{i} - \bar{y})^{2} \end{aligned} \end{matrix}

$\begin{equation} \begin{aligned} SS_T = \sum\limits _{i=1}^n (y_i-\overline y)^2 \end{aligned} \end{equation}$
上式被称为观察值

y_{1}, y_{2}, \dots, y_{n}

$y_1,y_2,\cdots,y_n$ 的离差平方和。

S S_{T}

$SS_T$ 反映了观察值

y_{i} (i = 1, 2, \dots, n)

$y_i(i=1,2,\cdots,n)$ 总的分散程度，对

S S_{T}

$SS_T$ 进行分解，可得：

\begin{matrix} (11) & \begin{aligned} S S_{T} & = \sum_{i = 1}^{n} (y_{i} - \bar{y})^{2} \\ = \sum_{i = 1}^{n} [({\hat{y}}_{i} - \bar{y}) + (y_{i} - \hat{y})]^{2} \\ = \sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2} + \sum_{i = 1}^{n} (y_{i} - \hat{y})^{2} + 2 \sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y}) ({\hat{y}}_{i} - \hat{y}) \end{aligned} \end{matrix}

$\begin{equation} \begin{aligned} SS_T &= \sum\limits _{i=1}^n (y_i-\overline y)^2\\ &= \sum\limits _{i=1}^n [(\hat y_i-\overline y)+(y_i-\hat y)]^2\\ &= \sum\limits _{i=1}^n (\hat y_i-\overline y)^2+ \sum\limits _{i=1}^n ( y_i-\hat y)^2+2 \sum\limits _{i=1}^n (\hat y_i-\overline y) (\hat y_i-\hat y) \end{aligned} \end{equation}$
可以证明

\sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y}) ({\hat{y}}_{i} - \hat{y}) = 0

$\sum\limits _{i=1}^n (\hat y_i-\overline y) (\hat y_i-\hat y)=0$ ，所以则有：

\begin{matrix} (12) & \begin{aligned} S S_{T} & = \sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2} + \sum_{i = 1}^{n} (y_{i} - \hat{y})^{2} \\ = S S_{R} + S S_{E} \end{aligned} \end{matrix}

$\begin{equation} \begin{aligned} SS_T &= \sum\limits _{i=1}^n (\hat y_i-\overline y)^2+ \sum\limits _{i=1}^n ( y_i-\hat y)^2\\ &= SS_R+SS_E \end{aligned} \end{equation}$
其中：

\begin{matrix} (13) & \begin{aligned} S S_{R} & = \sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2} \\ S S_{E} & = \sum_{i = 1}^{n} (y_{i} - \hat{y})^{2} \end{aligned} \end{matrix}

$\begin{equation} \begin{aligned} SS_R &= \sum\limits _{i=1}^n (\hat y_i-\overline y)^2\\ SS_E & = \sum\limits _{i=1}^n ( y_i-\hat y)^2 \end{aligned} \end{equation}$

S S_{R}

$SS_R$ 叫做回归平方和，反映了

y_{i} (1, 2, \dots, n)

$y_i(1,2,\cdots,n)$ 的分散程度，这种分散程度是由于

Y

$Y$ 和

X

$X$ 之间的线性关系引起的。

$SS_E$ 叫做残差平方和，反映了 $y_i$ 与回归值 $\hat y_i$ 的偏离程度，它是 $X$ 对 $Y$ 的线性影响之外的其余因素产生的误差。

3.2 $F$ 检验法

$H_0$ 成立时，可以证明：

F = \frac{S S_{R}}{S S_{E} / (n - 2)} \sim F (1, n - 2)

$F = \frac {SS_R} {SS_E/(n-2)} \sim F(1,n-2)$
对于给定的显著性水平

α

$\alpha$ ，拒绝域为

W = {F > F_{α} (1, n - 2)}

$W=\{ F > F_\alpha(1,n-2)\}$ ，对于

F

$F$ 检验统计量的

p

$p$ 值，如果

p < α

$p<\alpha$ ，则拒绝

H_{0}

$H_0$ ，表明两个变量之间的线性关系显著，这种检验法成为

F

$F$ 检验法

3.3 判定系数法

回归平方和 $SS_R$ 占总平方和 $SS_T$ 的比例称为判定系数，也称决定系数，记做 $R^2$ ，其计算公式为

R^{2} = \frac{S S_{R}}{S S_{T}} = \frac{\sum_{i = 1}^{n} ({\hat{y}}_{i} - \bar{y})^{2}}{\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2}}

$R^2 = \frac {SS_R} {SS_T} = \frac {\sum \limits _{i=1}^n(\hat y_i-\overline y)^2} {\sum\limits _{i=1}^n(y_i-\overline y)^2}$
在一元线性回归中，判定系数

R_{2}

$R_2$ 可以用来检验回归直线对数据的拟合程度，

如果 $Y$ 的变化和 $X$ 相关， $SS_E$ =0,则 $SS_T$ = $SS_R$ ，于是 $R^2$ =1，拟合是完全的，

如果 $Y$ 的变化与 $X$ 无关，此时，则 $R^2$ =0。

可见 $R^2 \in[0,1]$ ， $R^2$ 越接近于1，回归直线的拟合程度越好， $R^2$ 越接近于0，回归直线拟合的程度越差。

3.4 估计标准误差

估计标准误差是残差平方和 $SS_E$ 的均方根，即残差的标准差，用 $s_e$ 来表示，其计算公式为：

s_{e} = \sqrt{\frac{S S_{E}}{n - p - 1}} = \sqrt{\frac{\sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2}}{n - p - 1}}

$s_e= \sqrt {\frac {SS_E}{n-p-1}}=\sqrt {\frac {\sum\limits _{i=1}^n(y_i-\hat y_i)^2}{n-p-1}}$
其中

p

$p$ 为自变量的个数。

$s_e$ 反映了用回归方程预测因变量时产生的预测误差的大小，因此从另一方面反映了回归直线的拟合程度。

4,最小二乘法公式推导

下面进行进行 $(2)$ 式的推导。

首先，原函数为

\begin{matrix} (4) & Q (a, b) = \sum_{i = 1}^{n} (y_{i} - a - b x_{i})^{2} \end{matrix}

$Q(a,b) = \sum\limits_{i=1}^n(y_i-a-bx_i)^2 \tag{4}$
对

(4)

$(4)$ 式分别对

a

$a$ 和

b

$b$ 求一阶偏导数，得到下面公式：

\begin{matrix} (5) & \frac{\partial Q}{\partial a} = \sum_{i = 1}^{n} 2 (y_{i} - a - b x_{i}) (- 1) \end{matrix}

$\frac{\partial Q}{\partial a} = \sum\limits _{i=1}^n2(y_i-a-bx_i)(-1) \tag{5}$

\begin{matrix} (6) & \frac{\partial Q}{\partial b} = \sum_{i = 1}^{n} 2 (y_{i} - a - b x_{i}) (- x_{i}) \end{matrix}

$\frac{\partial Q}{\partial b} = \sum\limits _{i=1}^n2(y_i-a-bx_i)(-x_i) \tag{6}$

对 $(5)$ 式，由一阶偏导数为0，可转化为：

\frac{\partial Q}{\partial a} = \sum_{i = 1}^{n} (y_{i} - a - b x_{i}) = 0

$\frac{\partial Q}{\partial a} = \sum\limits _{i=1}^n(y_i-a-bx_i)=0$
即：

n \bar{y} - n a - n b \bar{x} = 0

$n\overline y-na-nb\overline x =0$
所以求得

a

$a$ 的表达式为：

\begin{matrix} (7) & a = \bar{y} - b \bar{x} \end{matrix}

$a = \overline y - b\overline x \tag{7}$
对

(6)

$(6)$ 式，由偏导数为0，可化简为：

\sum_{i = 1}^{n} (y_{i} - a - b x_{i}) (x_{i}) = \sum_{i = 1}^{n} (y_{i} x_{i} - a x_{i} - b x_{i}^{2}) = 0

$\sum\limits _{i=1}^n(y_i-a-bx_i)(x_i) = \sum\limits _{i=1}^n (y_ix_i-ax_i-bx_i^2)=0$
继续化简则有：

\begin{matrix} (8) & \sum_{i = 1}^{n} (y_{i} x_{i} - a x_{i} - b x_{i}^{2}) = \sum_{i = 1}^{n} x_{i} y_{i} - a n \bar{x} - \sum_{i = 1}^{n} x_{i}^{2} \end{matrix}

$\sum\limits _{i=1}^n (y_ix_i-ax_i-bx_i^2) = \sum\limits _{i=1}^nx_iy_i-an\overline x-\sum\limits _{i=1}^nx_i^2 \tag 8$
将

(7)

$(7)$ 式带入

(8)

$(8)$ 式，则有

\begin{aligned} (14) & \sum_{i = 1}^{n} x_{i} y_{i} - a n \bar{x} - \sum_{i = 1}^{n} x_{i}^{2} = \sum_{i = 1}^{n} x_{i} y_{i} - (\bar{y} - b \bar{x}) n \bar{x} - \sum_{i = 1}^{n} x_{i}^{2} = \sum_{i = 1}^{n} x_{i} y_{i} - n \bar{x} \bar{y} + b (n {\bar{x}}^{2} - \sum_{i = 1}^{n} x_{i}^{2}) = 0 \end{aligned}

$\begin {align}\sum\limits _{i=1}^nx_iy_i-an\overline x-\sum\limits _{i=1}^nx_i^2= \sum\limits _{i=1}^nx_iy_i-(\overline y-b\overline x)n\overline x-\sum\limits _{i=1}^nx_i^2 = \sum\limits _{i=1}^nx_iy_i-n\overline x\overline y+b(n\overline x^2-\sum\limits _{i=1}^nx_i^2)=0 \end {align}$
可得：

\begin{matrix} (9) & b = \frac{\sum_{i = 1}^{n} x_{i} y_{i} - b \bar{x} \bar{y}}{\sum_{i = 1}^{n} x_{i}^{2} - n x_{i}^{2}} \end{matrix}

$b = \frac {\sum\limits _{i=1}^nx_iy_i-b\overline x \overline y} {\sum\limits _{i=1}^nx_i^2-nx_i^2} \tag 9$
又有：

\begin{matrix} (10) & \begin{aligned} \sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y}) & = \sum_{i = 1}^{n} （ x_{i} y_{i} - \bar{x} y_{i} - x_{i} \bar{y} + \bar{x} \bar{y}) \\ = \sum_{i = 1}^{n} (x_{i} y_{i} - \bar{x} y_{i} - x_{i} \bar{y} + \bar{x} \bar{y}) \\ = \sum_{i = 1}^{n} x_{i} y_{i} - n \bar{x} \bar{y} - n \bar{x} \bar{y} + n \bar{x} \bar{y} \\ = \sum_{i = 1}^{n} x_{i} y_{i} - n \bar{x} \bar{y} \end{aligned} \end{matrix}

$\begin{equation} \begin{aligned} \sum\limits _{i=1}^n (x_i-\overline x)(y_i-\overline y) &= \sum\limits _{i=1}^n（x_iy_i-\overline xy_i-x_i\overline y+\overline x\overline y)\\ &=\sum\limits _{i=1}^n(x_iy_i-\overline xy_i -x_i\overline y +\overline x\overline y) \\ &=\sum\limits _{i=1}^nx_iy_i-n\overline x \overline y -n \overline x \overline y+n \overline x \overline y\\ & =\sum\limits _{i=1}^nx_iy_i-n\overline x \overline y \end{aligned} \tag {10} \end{equation}$

\begin{matrix} (11) & \begin{aligned} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} & = \sum_{i = 1}^{n} （ x_{i}^{2} - 2 \bar{x} x_{i} - {\bar{x}}^{2}) \\ = \sum_{i = 1}^{n} x_{i}^{2} - 2 n {\bar{x}}^{2} + {\bar{x}}^{2} \\ = \sum_{i = 1}^{n} x_{i}^{2} - n {\bar{x}}^{2} \end{aligned} \end{matrix}

$\begin{equation} \begin{aligned} \sum\limits _{i=1}^n (x_i-\overline x)^2 &= \sum\limits _{i=1}^n（x_i^2-2\overline xx_i-\overline x^2)\\ &=\sum\limits _{i=1}^n x_i^2 -2n\overline x^2+\overline x ^2\\ & =\sum\limits _{i=1}^nx_i^2-n\overline x^2 \end{aligned} \tag {11} \end{equation}$

将公式 $(10)$ 和公式 $(11)$ 带入公式 $(9)$ ，即可得到公式 $(2)$ ，即:

\begin{matrix} (2) & \begin{aligned} (15) & b = \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})^{2}}{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} = \frac{L_{x y}}{L_{x x}} \end{aligned} \end{matrix}

$\begin{align} b=\frac {\sum\limits_{i=1}^n(x_i-\overline{x})(y_i -\overline{y})^2} {\sum\limits_{i=1}^n(x_i-\overline{x})^2}=\frac{L_{xy}} {L_{xx}} \end {align} \tag{2}$
最终得到

a

$a$ 和

b

$b$ 的估计公式如下：

\begin{matrix} (13) & {\begin{cases} \hat{b} = \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})^{2}}{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} = \frac{L_{x y}}{L_{x x}} \\ \hat{a} = \bar{y} - \hat{b} \bar{x} \end{cases} \end{matrix}

$\begin {cases} \hat b =\frac {\sum\limits_{i=1}^n(x_i-\overline{x})(y_i -\overline{y})^2} {\sum\limits_{i=1}^n(x_i-\overline{x})^2}=\frac{L_{xy}} {L_{xx}} \\ \hat a = \overline{y} - \hat b \overline x \end{cases} \tag{13}$