一、相关分析解决什么问题?
利用回归模型根据给定的自变量来预测因变量。
二、回归模型
,其中对于有独立性、正态性、方差齐性三大要求,称为误差项,即除去自变量外的随机误差,模型描述了因变量y的期望值E(y)如何依赖于自变量以及误差项。
tips:模型由线性部分()加上误差项构成
也就是给定一个x的值,根据回归方程能预测出因变量y的期望
三、回归方程:
,其中是均值的一个点估计量;是估计的回归直线在y轴上的截距,是直线的斜率,即回归系数,它表示每变动一个单位时,的平均变动量。
四、如何估计参数?——最小二乘法
①原理:为使直线的拟合效果达到最好,使观测值 与估计值之间的利差均方和最小,即
,
②回归直线过
五、如何评价回归——回归直线的拟合优度,判定系数与估计标准误差:
① SST=SSR+SSE即总平方和=回归平方和+残差平方和
也就是说回归直线的拟合程度好坏取决于
②,其值越接近1,拟合程度越好,越接近于0,拟合程度越差
判定系数的平方跟为,称为相关系数,其其值越接近1,拟合程度越好,越接近于0,拟合程度越差。但是要注意,因为r是平方根其值总是大于判定系数,例如,当时,r=0.5,表面上看似乎有一半相关了,当时根据R方x只能解释因变量总变差的四分之一。
③从SSE的角度来判定,,即估计标准误差,是残差平方和的均方跟,即残差的标准差。
是度量各个观测点在直线周围分散程度的一个 统计量,反映实际观测值与回归估计值之间的差异程度。
可以看作是排除自变量对因变量的影响后,y随机波动大小的一个估计量,与判定系数相反,其值越小,拟合效果越好。
五、显著性检验
①线性关系检验:检验自变量与因变量之间是否存在线性关系,以SSR、SSE为基础构造F统计量
@回归系数的检验和推断——t检验