父母-子女身高数据集的线性回归分析
目录
简介
“父亲高则儿子高,父亲矮则儿子矮”(即父亲与儿子身高相关,且为正相关)、“母高高一窝,父高高一个”(即母亲的身高比父亲的身高对子女的影响更大)的习俗传说是否成立?请在“父母子女身高”数据集(高尔顿数据集)基础上利用线性回归做出科学分析。
1)选取父子身高数据为X-Y,用Excel计算线性回归方程和相关系数、方差、p值等,判断回归方程是否成立。 现在如果有一个新家庭的数据,已知父亲身高75英寸,请测算儿子的身高为多少?
2)选取母子身高数据为X-Y,用Excel计算线性回归方程和相关系数、方差、p值等,判断回归方程是否成立。
3)根据以上数据,阐明你对习俗说法是否正确的分析。
4)你能用多元线性回归方法,计算出父亲、母亲与儿子身高的回归方程吗?
一、父子身高数据
1、回归分析
数据分析
以父亲身高作X,子女身高为Y
查看分析结果
设置坐标起始值
添加趋势线
显示拟合直线解析式
查看结果
相关系数:-0.0374
方差:0.51779
p值:0.480549
拟合方程:y=-0.0374x+77.683
2、身高预测
问题:已知父亲身高75英寸,测算儿子身高;
y=75*(-0.0374)+77.683=74.878
从预测数据看,父亲身高与子女身高不是正相关关系,习俗的说法是错误的。当父亲身高为75时,根据表格看出还有子女身高低于预测身高的。
二、母子身高数据
1、回归分析
步骤同上,这里直接处分析结果。
增加趋势线,显示拟合直线方程
2、相关数据
相关系数:0.4134
方差:4.69972
P值:0.043075
拟合方程:y=0.4134*x+35.292
3、相关数值认识
关系数的特点:
相关系数r是表示两个随机变量之间直线相关强度和方向的统计量,是一 一个无量纲的数值,取值范围-1≤r≤1;r的正负值表示两变量之间直线相关的方向,即r>0为正相关,r<0为负相关,r=0为零相关; r与回归系数b的符号相同;. r的绝对值大小表示两变量之间直线相关的密切程度,|r |越接近于1,说明密切程度越高,|rI 越接近于0,说明密切程度越低。
方差分析与回归分析是有联系又不完全相同的分析方法。方差分析主要研究各变量对结果的影响程度的定性关系,从而剔除对结果影响较小的变量,提高试验的效率和精度。而回归分析是研究变量与结果的定量关系,得出相应的数学模式。在回归分析中,需要对各变量对结果影响进行方差分析,以剔除影响不大的变量,提高回归分析的有效性。
回归分析中,会用到方差分析来判断各变量对结果的影响程度,从而确定哪些因素是应该纳入到回归方程中,哪些由于对结果影响的方差小而不应该纳入到回归方程中。
如果P值很大,说明这个T值很靠近原点,而P值很小,则说明这个T值远离原点(T的绝对值越大,P越小),根据上面的分析,P越小越好。
三、总结与参考资料
1、总结
对线性回归分析的深彻认识。