Anscombe四重奏&线性回归分析

概要

线性回归方法的有效性判别。 针对Anscombe四重奏数据集,用excel对四组数据进行线性回归分析,判断其中哪些回归方程是成立的,哪些不成立?不成立的应该如何解决?

一、数据分析流程

利用Excel软件自带的“数据分析”功能,对四重奏数据集进行线性回归分析。
有关具体操作流程,可参考文章:

Excel安装&线性回归.
Excel做线性回归分析.

二、四重奏数据集

1、数据一

线性回归分析结果:
在这里插入图片描述
散点图(调整相应坐标数值,便于观察;下同)
在这里插入图片描述
线性拟合方程
在这里插入图片描述
相关数值:

x的平均值:9
y的平均值:7.5009
R^2的值:0.6665
P的值:0.00217
标准误差:1.2366
拟合方程:y=0.5001*x+3.0001

2、数据二

线性回归分析结果:
在这里插入图片描述
散点图
在这里插入图片描述
线性拟合方程
在这里插入图片描述
相关数值

x的平均值:9
y的平均值:7.5009
R^2的值:0.6662
P的值:0.002719
标准误差:1.237214
拟合方程:y=0.5*x+3.0009

3、数据三

线性回归分析结果:
在这里插入图片描述
散点图
在这里插入图片描述

线性拟合方程
在这里插入图片描述
相关数值

x的平均值:9
y的平均值:7.5009
R^2的值:0.6663
P的值:0.002176
标准误差:1.236311
拟合方程:y=0.4997*x+3.0025

4、数据四

线性回归分析结果:
在这里插入图片描述
散点图
在这里插入图片描述
线性拟合方程
在这里插入图片描述
相关数值

x的平均值:9
y的平均值:7.5009
R^2的值:0.6667
P的值:0.002165
标准误差:1.235695
拟合方程:0.4999*x+3.0017

5、有效性判别

我们取保留两位有效数字为证:

这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;p值都是0.002,相关度都是1;线性回归拟合方程都是y=3.0+0.5x。单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别。把它们描绘在图表中,你会发现这四组数据是四种完全不同的情况。第一组数据是大多人看到上述统计数字的第一反应,是最“正常”的一组数据;第二组数据所反映的事实上是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计数字与第一组数据恰好都相同;第三组数据描述的是一个精确的线性关系,只是这里面有一个异常值,它导致了上述各个统计数字,尤其是相关度值的偏差;第四组数据则是一个更极端的例子,其异常值导致了平均数、方差、相关度、线性回归线等所有统计数字全部发生偏差。

三、总结与参考资料

1、总结

对于一组数据的有效分析,不能仅仅依靠平均数,均方差等来判断。最好从图形入手,数形结合可以有效判断一组数据的变化趋势。

2、参考资料

图表的重要性:Anscombe的四组数据.

猜你喜欢

转载自blog.csdn.net/QWERTYzxw/article/details/114944978