Datawhale统计学一周集训——任务四

任务内容

  • 学习任务(一)
    62-71集 线性回归
  • 学习任务(二)
    72-81集 卡方分布与方差分析

学习笔记

简单线性回归

线性回归是基于某个变量X(自变量)来预测变量Y(因变量)的值。

采用最小二乘法,即最小化平方误差和(SSE)

9733031-3d4008bd3ae82e41.png

分别对
求导可以得出:
9733031-d86e067db4a241cf.png

参考: 理解简单线性回归的概念

决定系数


SSR:预测数据与原始数据均值之差的平方和
SST:原始数据与原始数据均值之差的平方和
SSE : 该统计参数计算的是拟合数据和原始数据对应点的误差的平方和
决定系数是通过数据变化来表征一个拟合的好坏,取值范围为[0,1],越接近1,表明方程的变量对y的解释能力越强,这个模型对数据的拟合也就越好。
参考: R^2

协方差与相关系数

协方差公式:

9733031-0a6589415a317414.png

协方差表示两个变量X和Y的同向变化情况,如果是正的,表示同向变化,负的表示反向变化,越大表示相关性越大。
如果某一时刻的协方差为负数,也不一定说明他们反向运动,具体要结合整体情况来判断。

相关系数公式:

9733031-ceeff9e042f8d141.png

相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
变化范围为-1到+1.+1表示完全正相关,-1表示完全负相关。
参考: 协方差与相关系数

补充

机器学习线性回归模型可以参考:
线性回归
线性回归详解
线性回归算法解析

分布

概率分布主要用于检查实际结果与期望结果之间何时存在显著差别。
分布的两个用途:

  • 第一用于检验拟合优度,也就是可以检验一组给定的数据与指定分布的吻合程度。
  • 第二可以用于两个变量之间的独立性,通过这种方法可以检查变量之间是否存在某种关联。

自由度:v=(组数)-(限制数)
显著性水平:

假设检验

9733031-def0408d3457b25e.PNG

不同分布不同情况下的自由度:


9733031-1be5728eaf00de80.PNG

对于一张大小为h*k的表格,自由度为:


9733031-057f6ba55ddee9e1.PNG

F检验

F分布是两个卡方分布(具有不同的自由度)的比值。

方差分析(ANOVA),又叫F检验,简单来说,就是求得F统计量(组间方差/组内方差),然后查F表,如果大于临界值(一般是0.05显著性水平下)则拒绝原假设,即组间具有显著性的差异。

F统计量 = 组间方差/组内方差
这里的方差等于平方和除以自由度,组间的自由度为(组数-1),组内自由度为组数*(样本量-1),此样本量可以不一样,所以方差分析各组的样本量可以不一样;

实际中我们的主要问题是看组间是否有差异,ANOVA告诉我们组间的差异不仅要看组间的波动,还要看组内的波动,如果组内波动太大的话,很可能不存在差异,只是组内的数据乱而已,当然组间的波动越大,则组间的差异越大。
参考:F检验(ANOVA)
记录几个好的博客,回头学习:
通俗理解T检验与F检验的区别
Ftest(F检验,P值求取)

猜你喜欢

转载自blog.csdn.net/weixin_33813128/article/details/87769618