线性回归分析及预测

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/charie411/article/details/72780664

参见

简介

线性回归分析是基于一系列对残差的假设而进行的回归过程,因此只得到回归方程并不是完整的回归分析,还需要进行一系列的分析和有效性检验:残差分析(P-P图)、拟合优度检验(R)、回归方程显著性检验(F检验)、回归系数显著性检验(t检验)等。如果有不能通过的假设项,我们需要删除异常值、筛选变量等方法重新建立模型。

流程

Created with Raphaël 2.1.0 模型假定 简单线性拟合 残差分析 方程显著性(F检验) 系数显著性(t检验) 预测 Mean(yes),individual(no) 平均值预测值及区间 点预测值及区间 yes no yes no yes no yes no

模型假设

关于回归模型 y=β0+β1x+β2x+...+βp+ϵ 的误差 ϵ 的假设:

  • 随机误差服从均值为0;
  • 随机误差方差一致;
  • 随机误差相互独立;
  • 随机误差是正太分布的随机变量;
    基于上述假设,回归模型可以简化为 y=β0+β1x+β2x+...+βp

检验方法

残差分析

异常值判断标准

  • 残差图(matlab中residual case order plot,残差-case number图):残差区间线段在残差零点间较均匀分布;

正太性判断标准

  • 标准化残差图(standardized residual,标准化残差-x图):大约有95%的标准化残差在-2~+2区间
  • 正太概率图(normal probability plot,标准化残差-正太分数图):较多的点聚集在45°直线附近

回归方程总体显著性检验

总体显著性的F检验
原假设 H0:β1=β2=...=βp=0
备择假设 Ha:0

拒绝法则
p-Value≤ α ,则拒绝 H0 ,得出结论: yx1,x2,...xp 之间存在一个显著关系。

系数显著性检验

单个系数显著性的t检验
对于任意参数 βi
原假设 H0:βi=0
备择假设 Ha:βi0
拒绝法则
p-Value≤ α ,则拒绝 H0 ,得出结论: βi 在统计上是显著的。

预测

得到估计的回归方程后,可以进行估计和预测y值置信区间。

y的平均值的置信区间
y的一个个别值的置信区间

示例及分析

matlab进行回归分析及预测

线性回归

  • regress:输入变量y、x及 α ,输出系数阵b及置信区间bint,残差阵r及置信区间rint,统计信息stats( R2 、F检验结果、t检验结果)
  • polyfit:polyfit输入变量x,y及n,输出系数矩阵p及误差项S;

残差分析

  • rcoplot:输入残差阵r及置信区间rint,输出残差图

预测值置信区间计算

  • polyval:polyval输入p、S,预测y的置信区间为y±DETA;
  • polyconf:输入p、S,得到y的置信区间为y±DETA;

结合上述matlab方法,以regress+rcoplot进行回归分析,polyfit(没办法?)+polyconf进行预测。

eg1:

品牌 重量 价格
FF5 17.8 2100
PP 16.1 6250
OOG 14.9 8370
EME 17.2 4000
BRU 13.1 8600
BU 15.9 6200
CST 16.2 6000
GTA 17.1 2580
WTGT 17.6 3400
SSAT 14.1 8000

建立一个估计的回归方程,并评价拟合优度,估计重量为15时的价格;

%%散点观测
x=[17.8,16.1,14.9,15.9,17.2,13.1,16.2,17.1,17.6,14.1];
y=[2100,6250,8370,6200,4000,8600,6000,2580,3400,8000];
scatter(x,y);
X=[ones(size(x,2),1),x'];
alpha=0.05;
[b,bint,r,rint,stats]=regress(y,X,alpha);%%观察stats,判断优度、方程总体显著性及方程系数显著性
rcoplot(r,rint);%观察残差分布,检出异常值

[p,S]=polyfit(x,y,1);
[Y,Deta]=polyconf(p,X,S);%Y±Deta即为预测值置信区间;

SPSS进行回归分析及预测

  1. 利用SPSS分析工具(线性回归)对原始数据进行分析:
    这里写图片描述
    1. 设置自变量和应变量
      这里写图片描述
    2. 添加正太概率分布图
      这里写图片描述
    3. 设置均值、单一y值置信区间计算
      这里写图片描述
    4. 获得拟合优度 R2 和ANOVA表中F检验对应p-Value
      这里写图片描述
    5. 获得残差概率分布图
      这里写图片描述
    6. 新增列分别为平均值的置信区间上下限、单一y值的置信区间上下限
      这里写图片描述

猜你喜欢

转载自blog.csdn.net/charie411/article/details/72780664