一元线性回归

一、相关分析解决什么问题？

利用回归模型根据给定的自变量来预测因变量。

二、回归模型

$y=\beta _{0}+\beta _{1}x+\varepsilon$ ,其中对于 $\varepsilon$ 有独立性、正态性、方差齐性三大要求，称为误差项，即除去自变量外的随机误差，模型描述了因变量y的期望值E(y）如何依赖于自变量以及误差项。

tips：模型由线性部分（ $\beta _{0}+\beta _{1}x$ ）加上误差项 $\varepsilon$ 构成

$\because E(\varepsilon )=0, E(\beta _{0})=\beta _{0}, E(\beta _{1})=\beta _{1} \therefore E(y)=\beta _{0}+\beta _{1}x$

也就是给定一个x的值，根据回归方程能预测出因变量y的期望

三、回归方程：

$\hat{y}=\hat{\beta _{0}}+\hat{\beta _{1}}x$ ，其中 $\hat{y}$ 是均值 $E(y)$ 的一个点估计量； $\hat{\beta _{0}}$ 是估计的回归直线在y轴上的截距， $\hat{\beta _{1}}$ 是直线的斜率，即回归系数，它表示 $x$ 每变动一个单位时， $y$ 的平均变动量。

四、如何估计参数？——最小二乘法

①原理：为使直线的拟合效果达到最好，使观测值 $y_{i}$ 与估计值 $\hat{y}$ 之间的利差均方和最小，即

$min=\sum (y_{i}-\hat{y_{i}})^{2}=\sum (y_{i}-\hat{\beta _{1}}x-\hat{\beta _{0}})$

$\Leftrightarrow \hat{\beta ^{_{1}}}=\sum (x_{i}-\bar{x})(y_{i}-\bar{y})/\sum (x_{i}-\bar{x})^{2}$

$\hat{}\beta _{0}=\bar{y}-\hat{\beta _{1}}\bar{x}$ ,

②回归直线过 $(\bar{x},\bar{y})$

五、如何评价回归——回归直线的拟合优度，判定系数与估计标准误差：

① SST=SSR+SSE即总平方和=回归平方和+残差平方和

也就是说回归直线的拟合程度好坏取决于 $R^{2}=\frac{SSR}{SST}$

② $R^{2}\in [0,1]$ ,其值越接近1，拟合程度越好，越接近于0，拟合程度越差

判定系数的平方跟为 $\left | r \right |$ ，称为相关系数，其其值越接近1，拟合程度越好，越接近于0，拟合程度越差。但是要注意，因为r是平方根其值总是大于判定系数 $R^{^{2}}$ ，例如，当 $当\left | r \right |=0.5时，R^{2}=0.25$ $R^{^{2}}=0.25，\left | r \right |=0.5$ 时，r=0.5，表面上看似乎有一半相关了，当时根据R方x只能解释因变量总变差的四分之一。

③从SSE的角度来判定， $s_{e}= \sqrt{}\frac{SSE}{n-2}$ ,即估计标准误差，是残差平方和的均方跟，即残差的标准差。

是度量各个观测点在直线周围分散程度的一个统计量，反映实际观测值与回归估计值之间的差异程度。

可以看作是排除自变量对因变量的影响后，y随机波动大小的一个估计量，与判定系数相反，其值越小，拟合效果越好。

五、显著性检验

①线性关系检验：检验自变量与因变量之间是否存在线性关系，以SSR、SSE为基础构造F统计量

$F=\frac{\frac{SSR}{1}}{\frac{SSE}{n-2}}=\frac{MSR}{MSE}\sim F(1,n-2)$

@回归系数的检验和推断——t检验

猜你喜欢