直线回归和相关------（一）回归和相关的概念与直线回归

一、回归与相关的概念

（1）函数关系与统计关系：两个或两个以上变数之间的关系可分为两类：函数关系和统计关系

函数关系是一种确定性关系，即一个变数的任一变量必与另一个变数的一个确定的数值相对应。两者之间的关系是完全确定的，函数关系不包含误差的干扰，常见于物理学、化学等。

统计关系是一种非确定关系，即一个变数的取值受到另一变数的影响，两者之间既有关系，但又不存在完全确定的函数关系。在实验科学中两类变数因受误差的干扰而表现为统计关系，在农学和生物学中常见。

（2）自变数与依变数：对具有统计关系的两个变数，可分别用变数符号Y、X表示。根据两个变数的作用特点，统计关系又分为因果关系和相关关系。

两个变数间的关系若具有原因和反映（结果）的性质，则称这两个变数间存在因果关系，并定义原因变数为自变数（independent variable）,X表示；定义结果变数为依变数（dependent variable），Y表示。

如果两个变数并不是原因和结果的关系，而呈现一种共同变化的特点，则称这两个变数间存在相关关系。相关关系中并没有自变数和依变数之分。X,Y可分别表示任一变数。

（3）回归分析和相关分析：统计关系与函数关系的根本区别，在于前者研究的是具有抽样误差的数据，而实验数据必须采用统计方法处理。对具有因果关系的两个变数，统计分析的任务是由实验数据推算得一个表示Y随X的改变而改变的方程。

对具有相关关系的两个变数，统计分析的目的是计算目标Y和X的相关密切程度的统计数，并测其显著性。这一统计数在两个变数为直线相关时称为相关系数（correlation coefficient），在多元相关时称为复相关系数（multiple correaltion）,在两个变数曲线相关时称相关指数（correalion index）。

回归分析：计算回归方程为基础的统计分析方法

相关分析：计算相关系数为基础的统计分析方法

原则上两个变数中Y含有试验误差而X不含试验误差时着重进行回归分析；Y、X均含有试验误差时着重进行相关分析。但是，两者界限不是十分严格，因为回归分析中包含相关分析的信息，相关分析中也包含回归分析的信息。

（4）两个变数资料的散点图（sactter diagram ）：对具有统计关系的两个变数的资料进行初步考察的简便而有效地方法。

X和Y相关的性质（正或负）和亲密程度。

X和Y的关系是直线型的还是非直线型的

是否有一些特殊的点表示着其他因素的干扰等

二、直线回归

（1）直线回归方程式

对于在散点图上呈直线趋势的两个变数，如果要概括其在数量上的互变规律，即从X的数量变化来预测或估计Y 的数量变化，则采用直线回归方程（linear regression equation）来描述。

$\hat{y}=a+bx$ 读作：y依x的直线回归方程(regression equation of Y on X )

x是自变数， $\hat{y}$ 是和x的量相对应的依变数的点估计值；a是x=0时的 $\hat{y}$ 值，回归直线在y轴上的截距，回归截距（regression intercept）；b是x每增加一个单位数时， $\hat{y}$ 平均地将要增加或减少的单位数，叫回归系数/斜率（regression coefficient/slope）。

最小二乘原理： $Q=\sum (y-\hat{y})^{2}=\sum (y-a-bx)^{2}$ 为最小

分别对a和b求偏导数并令其为0，可获得正规方程组（normal equations）:

直线一定通过 $(\bar{x},\bar{y})$ 坐标点?

$\hat{y}=a+bx$ and a= $\bar{y}-b\bar{x}$

$\hat{y}=(\bar{y}-b\bar{x})+bx$

$\hat{y}=\bar{y}+b(x-\bar{x})$

当x= $\bar{x}$ 时， $\hat{y}=\bar{y}$

总有 $\sum (\hat{y}-y)=0$

（2）直线回归方程的计算

（3）直线回归的标准误

当Q为最小的直线回归方程和实测的观察点并不重合，表明回归方程仍存在随机误差。

Q是误差的一种度量，称离回归平方和（sum of squares due to deviation from regression）或剩余平方和。

由于在建立回归方程时用了a,b两个统计数，故Q的自由度v=n-2.（自由度：样本内独立而能自由变动的离均差个数。）

回归方程的估计标准误 $s_{y/x}$ : $s_{y/x}=\sqrt{\frac{Q}{n-2}}=\sqrt{\frac{\sum (y-\hat{y})^{2}}{n-2}}$

特点：各个观察点愈靠近回归线， $s_{y/x}$ 愈小，当各个观察点都落在回归线上时， $s_{y/x}$ =0；各观察点在回归线上下分散的愈远， $s_{y/x}$ 愈大。样本的 $s_{y/x}$ 是回归精确度的度量， $s_{y/x}$ 愈小，回归方程估计y的精确度愈高。

后三种计算方式里有三级数据a,b，所以存在误差。

（4）直线回归的数学模型和基本假定

回归分析的依据是直线回归模型。在这一模型中，Y总体的每一个值由以下三部分组成：回归截距 $\alpha$ ,回归系数 $\beta$ ,Y变数的随机误差 $\varepsilon$ 。

总体直线回归的数学模型可表示为： $Y_{j}=\alpha +\beta X_{j}+\varepsilon_{j}$ 其中， $\varepsilon _{j}\sim N(0,\sigma _{\varepsilon }^{2})$

样本线性组成为： $y_{j}=a+b x_{j}+e_{j}$

按上述模型进行回归分析时，假定：

（1）Y变数是随机变数，而X变数则是没有误差的固定变数，至少和Y变数比起来X 的误差小到可以忽略。

（2）在任一X上都存在着一个Y总体（条件总体），它是作正态分布的，其平均数 $\mu _{Y/X}$ 是X的线性函数,其方差与X无关。

$\mu _{Y/X}=\alpha +\beta X$ （ $\hat{y}=a+bx$ ）

$\mu _{Y/X}$ 的样本估计值 $\hat{y}$ ， $\hat{y}$ 与X的关系就是线性回归方程 $\hat{y}=a+bx$ 。

（3）所有的Y总体都具有共同方差 $\sigma _{\varepsilon }^{2}$ ，这一方差不因X的不同而不同，而直线回归总体具有 $N(\alpha +\beta X,\sigma _{\varepsilon }^{2})$ 。试验所得的一组观察值（xi,yi）只是 $N(\alpha +\beta X,\sigma _{\varepsilon }^{2})$ 中的一个随机样本。

（4）随机误差 $\varepsilon$ 相互独立，并作正态分布，具有 $\varepsilon _{j}\sim N(0,\sigma _{\varepsilon }^{2})$ 。

模型中的参数共有 $\alpha$ ，即直线的截距； $\beta$ ，直线斜率； $\sigma _{\varepsilon }^{2}$ 误差的方差。样本的相应估计值为a,b和 $s_{y/x}$ 。

基于上述模型和假定，有助于正确地进行回归分析。