之前的统计量只描述单个变量,现在我们来学习一些可以说明变量之间关系的统计量。
6.1 数据类型
6.1.1 单变量数据
单个变量的频数或概率。例如天晴时数**,**音乐会听众人数。
表6-1 天晴时数表
天晴时数(小时) |
1.9 |
2.5 |
3.2 |
3.8 |
4.7 |
5.5 |
5.9 |
7.2 |
表6-2 音乐会听众人数表
音乐会听众人数(百人) |
22 |
33 |
30 |
42 |
38 |
49 |
42 |
55 |
6.1.2 二变量数据
存在两个变量数值,若可以用一个变量来解释另一个变量,那么这个变量被称为自变量,另一个变量则称为因变量。例如音乐会听众人数与天晴时数。
表6-3 音乐会听众人数与天晴时数表
天晴时数(小时) |
1.9 |
2.5 |
3.2 |
3.8 |
4.7 |
5.5 |
5.9 |
7.2 |
音乐会听众人数(百人) |
22 |
33 |
30 |
42 |
38 |
49 |
42 |
55 |
6.2 相关性
变量之间的数学关系。
对于二变量数据,我们可以使用散点图可视化数据,观察数据点的分布情况。
6.2.1 线性相关
变量之间存在明显的线性关系。
正线性相关:数据点呈直线分布,且y随x的增大而增大。
负线性相关:数据点呈直线分布,且y随x的增大而减小。
6.2.2 非线性相关
变量之间存在明显的关系,但是不是线性。
6.2.3 不相关
变量之间不存在明显的关系,为随机模式。
数据点呈随机分布
6.3 相关性与因果性
相关性指变量间的数量关系。
因果性指变量间的逻辑关系。
相关性⇏因果性因果性⇒相关性
例如:防晒霜销量与花粉量正线性相关。
分析:并不能说明花粉量增多直接导致防晒霜销量提高,极有可能是花粉量增大表明天气晴朗,而天气晴朗,人们外出游行需要涂抹更多的防晒霜,因此防晒霜销量增加。也就是说晴朗的好天气导致花粉量增多和防晒霜销量提高,而花粉量和防晒霜销量并无直接因果关系。
防晒霜销量与花粉量正线性相关⇏花粉量影响防晒霜销量天气影响花粉量⇒花粉量与天气正相关天气影响防晒霜销量⇒防晒霜销量与天气正相关
6.4 线性拟合
6.4.1 线性拟合
y^=ax+b(误差平方和)SSE=∑(y−yi)2
我们以SSE(误差平方和)为损失函数,在数学上,我们可以直接使用最小二乘法计算a,b。
6.4.2 最小二乘法的数学公式
通过应用,掌握最小二乘法的使用。
a=∑(xi−E(x))2∑(xi−E(x)(yi−E(y)))=E(x2)−E2(x)E(xy)−E(x)E(y)=Var(x)Cov(x,y)b=E(y)−a∗E(x)
6.4.3 最小二乘法的数学证明
感兴趣的同学,可手动推导一番公式。
a=∑(xi−E(x))2∑(xi−E(x)(yi−E(y)))=∑(xi2−2xiE(x)+E2(x))∑(xiyi−xiE(y)−E(x)yi+E(x)E(y))=E(x2)−2E2(x)+E2(x)E(xy)−E(x)E(y)−E(x)E(y)+E(x)E(y)=E(x2)−E2(x)E(xy)−E(x)E(y)=Var(x)Cov(x,y)∵y^=ax+b经过点(E(x),E(y))∴b=E(y)−a∗E(x)
6.4.4 最小二乘法的应用
根据天晴时数,预测音乐会听众人数。
表6-3 音乐会听众人数与天晴时数表
天晴时数(小时) x |
1.9 |
2.5 |
3.2 |
3.8 |
4.7 |
5.5 |
5.9 |
7.2 |
音乐会听众人数(百人) y |
22 |
33 |
30 |
42 |
38 |
49 |
42 |
55 |
E(x)=n∑(xi)=81.9+2.5+3.2+3.8+4.7+5.5+5.9+7.2=4.3375同理E(y)=38.875,E(xy)=183.975,E(x2)=21.69125∴a=E(x2)−E2(x)E(xy)−E(x)E(y)=21.69125−(4.3375)2183.975−4.3375∗38.875=5.336b=E(y)−a∗E(x)=38.875−5.336∗4.3375=15.73∴y^=5.336x+15.73
拟合结果如下图所示:
6.4.5 最小二乘法的其他参数
相关系数
决定系数
注意:只有在处于数据范围以内时,我们才能自行给出结论。
有影响观察结果和异常值
有影响观察结果是在水平方向上远离数据的点(从数据看);
异常值是远偏离回归线的点(从拟合效果看)。
相关代码
参考:
《深入浅出统计学》
可汗学院公开课:统计学 http://open.163.com/special/Khan/khstatistics.html