Datawhale统计学一周集训——任务四

任务内容

学习任务（一）
62-71集线性回归
学习任务（二）
72-81集卡方分布与方差分析

学习笔记

简单线性回归

线性回归是基于某个变量X（自变量）来预测变量Y（因变量）的值。

采用最小二乘法，即最小化平方误差和（SSE）

分别对

、

求导可以得出：

参考：理解简单线性回归的概念

决定系数

SSR：预测数据与原始数据均值之差的平方和
SST：原始数据与原始数据均值之差的平方和
SSE : 该统计参数计算的是拟合数据和原始数据对应点的误差的平方和
决定系数是通过数据变化来表征一个拟合的好坏，取值范围为[0,1],越接近1，表明方程的变量对y的解释能力越强，这个模型对数据的拟合也就越好。
参考： R^2

协方差与相关系数

协方差公式：

协方差表示两个变量X和Y的同向变化情况，如果是正的，表示同向变化，负的表示反向变化，越大表示相关性越大。
如果某一时刻的协方差为负数，也不一定说明他们反向运动，具体要结合整体情况来判断。

补充

机器学习线性回归模型可以参考：
线性回归
 线性回归详解
 线性回归算法解析

分布

概率分布主要用于检查实际结果与期望结果之间何时存在显著差别。
分布的两个用途：

第一用于检验拟合优度，也就是可以检验一组给定的数据与指定分布的吻合程度。
第二可以用于两个变量之间的独立性，通过这种方法可以检查变量之间是否存在某种关联。

自由度：v=(组数)-(限制数)
显著性水平：

假设检验

不同分布不同情况下的自由度：

对于一张大小为h*k的表格，自由度为：

F检验

F分布是两个卡方分布（具有不同的自由度）的比值。

方差分析（ANOVA），又叫F检验，简单来说，就是求得F统计量（组间方差/组内方差），然后查F表，如果大于临界值（一般是0.05显著性水平下）则拒绝原假设，即组间具有显著性的差异。

F统计量 = 组间方差/组内方差
这里的方差等于平方和除以自由度，组间的自由度为(组数-1)，组内自由度为组数*（样本量-1），此样本量可以不一样，所以方差分析各组的样本量可以不一样；

实际中我们的主要问题是看组间是否有差异，ANOVA告诉我们组间的差异不仅要看组间的波动，还要看组内的波动，如果组内波动太大的话，很可能不存在差异，只是组内的数据乱而已，当然组间的波动越大，则组间的差异越大。
参考：F检验（ANOVA）
记录几个好的博客，回头学习：
通俗理解T检验与F检验的区别
 Ftest（F检验，P值求取）