概要
线性回归方法的有效性判别。 针对
Anscombe四重奏数据集
,用excel对四组数据进行线性回归分析,判断其中哪些回归方程是成立的,哪些不成立?不成立的应该如何解决?
一、数据分析流程
利用Excel软件自带的“数据分析
”功能,对四重奏数据集进行线性回归分析。
有关具体操作流程,可参考文章:
二、四重奏数据集
1、数据一
线性回归分析结果:
散点图(调整相应坐标数值,便于观察;下同)
线性拟合方程
相关数值:
x的平均值:9
y的平均值:7.5009
R^2的值:0.6665
P的值:0.00217
标准误差:1.2366
拟合方程:y=0.5001*x+3.0001
2、数据二
线性回归分析结果:
散点图
线性拟合方程
相关数值
x的平均值:9
y的平均值:7.5009
R^2的值:0.6662
P的值:0.002719
标准误差:1.237214
拟合方程:y=0.5*x+3.0009
3、数据三
线性回归分析结果:
散点图
线性拟合方程
相关数值
x的平均值:9
y的平均值:7.5009
R^2的值:0.6663
P的值:0.002176
标准误差:1.236311
拟合方程:y=0.4997*x+3.0025
4、数据四
线性回归分析结果:
散点图
线性拟合方程
相关数值
x的平均值:9
y的平均值:7.5009
R^2的值:0.6667
P的值:0.002165
标准误差:1.235695
拟合方程:0.4999*x+3.0017
5、有效性判别
我们取保留两位有效数字为证:
这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;p值都是0.002,相关度都是1;线性回归拟合方程都是y=3.0+0.5x。
单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别。把它们描绘在图表中,你会发现这四组数据是四种完全不同的情况。第一组数据是大多人看到上述统计数字的第一反应,是最“正常”的一组数据;第二组数据所反映的事实上是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计数字与第一组数据恰好都相同;第三组数据描述的是一个精确的线性关系,只是这里面有一个异常值,它导致了上述各个统计数字,尤其是相关度值的偏差;第四组数据则是一个更极端的例子,其异常值导致了平均数、方差、相关度、线性回归线等所有统计数字全部发生偏差。
三、总结与参考资料
1、总结
对于一组数据的有效分析,不能仅仅依靠平均数,均方差等来判断。最好从图形入手,数形结合可以有效判断一组数据的变化趋势。