统计学基础(六):相关与回归

之前的统计量只描述单个变量,现在我们来学习一些可以说明变量之间关系的统计量

6.1 数据类型

6.1.1 单变量数据

  单个变量的频数或概率。例如天晴时数**,**音乐会听众人数。

表6-1 天晴时数表
天晴时数(小时) 1.9 2.5 3.2 3.8 4.7 5.5 5.9 7.2

表6-2 音乐会听众人数表
音乐会听众人数(百人) 22 33 30 42 38 49 42 55

6.1.2 二变量数据

  存在两个变量数值,若可以用一个变量来解释另一个变量,那么这个变量被称为自变量,另一个变量则称为因变量。例如音乐会听众人数天晴时数。

表6-3 音乐会听众人数与天晴时数表
天晴时数(小时) 1.9 2.5 3.2 3.8 4.7 5.5 5.9 7.2
音乐会听众人数(百人) 22 33 30 42 38 49 42 55


6.2 相关性

  变量之间的数学关系。
  对于二变量数据,我们可以使用散点图可视化数据,观察数据点的分布情况。

6.2.1 线性相关

  变量之间存在明显的线性关系。
  正线性相关:数据点呈直线分布,且y随x的增大而增大。

正线性相关

  负线性相关:数据点呈直线分布,且y随x的增大而减小。

负线性相关

6.2.2 非线性相关

  变量之间存在明显的关系,但是不是线性。

6.2.3 不相关

  变量之间不存在明显的关系,为随机模式。
数据点呈随机分布

不相关


6.3 相关性与因果性

  相关性指变量间的数量关系。
  因果性指变量间的逻辑关系。
相关性\nRightarrow因果性 \\ 因果性\Rightarrow相关性

例如:防晒霜销量与花粉量正线性相关。

分析:并不能说明花粉量增多直接导致防晒霜销量提高,极有可能是花粉量增大表明天气晴朗,而天气晴朗,人们外出游行需要涂抹更多的防晒霜,因此防晒霜销量增加。也就是说晴朗的好天气导致花粉量增多和防晒霜销量提高,而花粉量和防晒霜销量并无直接因果关系。
线 防晒霜销量与花粉量正线性相关\nRightarrow花粉量影响防晒霜销量 \\ 天气影响花粉量\Rightarrow花粉量与天气正相关 \\ 天气影响防晒霜销量\Rightarrow防晒霜销量与天气正相关

6.4 线性拟合

6.4.1 线性拟合

y ^ = a x + b S S E = ( y y i ) 2 \hat{y} = ax+b \\ (误差平方和)SSE = \sum(y-y_i)^2
我们以SSE(误差平方和)为损失函数,在数学上,我们可以直接使用最小二乘法计算a,b。

6.4.2 最小二乘法的数学公式

通过应用,掌握最小二乘法的使用。
a = ( x i E ( x ) ( y i E ( y ) ) ) ( x i E ( x ) ) 2 = E ( x y ) E ( x ) E ( y ) E ( x 2 ) E 2 ( x ) = C o v ( x , y ) V a r ( x ) b = E ( y ) a E ( x ) a = \frac{\sum(x_i-E(x)(y_i-E(y)))}{\sum(x_i-E(x))^2} \\ = \frac{E(xy)-E(x)E(y)}{E(x^2)-E^2(x)} \\ = \frac{Cov(x,y)}{Var(x)} \\ b = E(y) - a*E(x)

6.4.3 最小二乘法的数学证明

感兴趣的同学,可手动推导一番公式。
a = ( x i E ( x ) ( y i E ( y ) ) ) ( x i E ( x ) ) 2 = ( x i y i x i E ( y ) E ( x ) y i + E ( x ) E ( y ) ) ( x i 2 2 x i E ( x ) + E 2 ( x ) ) = E ( x y ) E ( x ) E ( y ) E ( x ) E ( y ) + E ( x ) E ( y ) E ( x 2 ) 2 E 2 ( x ) + E 2 ( x ) = E ( x y ) E ( x ) E ( y ) E ( x 2 ) E 2 ( x ) = C o v ( x , y ) V a r ( x ) y ^ = a x + b ( E ( x ) , E ( y ) ) b = E ( y ) a E ( x ) a = \frac{\sum(x_i-E(x)(y_i-E(y)))}{\sum(x_i-E(x))^2} = \frac{\sum(x_iy_i-x_iE(y)-E(x)y_i+E(x)E(y))}{\sum(x_i^2-2x_iE(x)+E^2(x))} \\ = \frac{E(xy)-E(x)E(y)-E(x)E(y)+E(x)E(y)}{E(x^2)-2E^2(x)+E^2(x)} = \frac{E(xy)-E(x)E(y)}{E(x^2)-E^2(x)} \\ = \frac{Cov(x,y)}{Var(x)} \\ \because \quad \hat{y} = ax+b \quad经过点(E(x), E(y)) \\ \therefore \quad b = E(y) - a*E(x)

6.4.4 最小二乘法的应用

根据天晴时数,预测音乐会听众人数。

表6-3 音乐会听众人数与天晴时数表
天晴时数(小时)  x   1.9 2.5 3.2 3.8 4.7 5.5 5.9 7.2
音乐会听众人数(百人)  y   22 33 30 42 38 49 42 55

E ( x ) = ( x i ) n = 1.9 + 2.5 + 3.2 + 3.8 + 4.7 + 5.5 + 5.9 + 7.2 8 = 4.3375 E ( y ) = 38.875 , E ( x y ) = 183.975 , E ( x 2 ) = 21.69125 a = E ( x y ) E ( x ) E ( y ) E ( x 2 ) E 2 ( x ) = 183.975 4.3375 38.875 21.69125 ( 4.3375 ) 2 = 5.336 b = E ( y ) a E ( x ) = 38.875 5.336 4.3375 = 15.73 y ^ = 5.336 x + 15.73 E(x) = \frac{\sum(x_i)}{n} = \frac{1.9+2.5+3.2+3.8+4.7+5.5+5.9+7.2}{8} = 4.3375 \\ \\ 同理 \quad E(y) = 38.875, \quad E(xy) = 183.975, \quad E(x^2) = 21.69125 \\ \therefore a = \frac{E(xy)-E(x)E(y)}{E(x^2)-E^2(x)} = \frac{183.975-4.3375*38.875}{21.69125-(4.3375)^2} = 5.336 \\ \quad b = E(y) - a*E(x) = 38.875 - 5.336*4.3375 = 15.73 \\ \therefore \quad \hat{y} = 5.336x+15.73

拟合结果如下图所示:

线性拟合结果

6.4.5 最小二乘法的其他参数

相关系数

决定系数

注意:只有在处于数据范围以内时,我们才能自行给出结论。

有影响观察结果和异常值
有影响观察结果是在水平方向上远离数据的点(从数据看);
异常值是远偏离回归线的点(从拟合效果看)。

相关代码

参考:

《深入浅出统计学》

可汗学院公开课:统计学 http://open.163.com/special/Khan/khstatistics.html

猜你喜欢

转载自blog.csdn.net/the_harder_to_love/article/details/89153251
今日推荐