统计学--线性回归、卡方分布、方差分析

1、线性回归

在基础算法学习中已学习过，直接连接

https://blog.csdn.net/l422380631/article/details/88886130

2、卡方分布

卡方分布的基本描述：

　　　具有k个自由度的卡方分布是一个由k个独立标准正态随机变量的和所构成的分布。卡方分布经常用于我们常见的卡方检验中。卡方检验一方面可以用来衡量观测分布和理论分布之间的拟合程度，另一方面也可以测量定性数据两个分类标准间的独立性。事实上，卡方检验还有很多其它的作用。

卡方分布的定义：

　　　如果Z1，......，Zk是独立标准正态随机变量，那么这些变量的平方和就呈现出了k个自由度的卡方分布。平方和式子如下/

$Q\ =\sum _{i=1}^{k}Z_{i}^{2},$

　　　通常，卡方分布可以表示为一下形式。

$Q\ \sim \ \chi ^{2}(k)\ \ {\text{or}}\ \ Q\ \sim \ \chi _{k}^{2}.$

　　　要注意的是，卡方分布只有一个参数k，k是一个正整数，表明了分布中自由度的数目。

卡方分布的概率密度函数：

　　　卡方分布的概率密度函数如下：

$f(x;\,k)={\begin{cases}{\dfrac {x^{(k/2-1)}e^{-x/2}}{2^{k/2}\Gamma \left({\frac {k}{2}}\right)}},&x>0;\\0,&{\text{otherwise}}.\end{cases}}$

　　　 ${\textstyle \Gamma (k/2)}$ 表示的是一个gamma函数，它是整数k的封闭形式。

3、方差分析

方差分析(Analysis of Variance，简称ANOVA)，又称“变异数分析”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。

一个复杂的事物，其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素，各因素之间的交互作用，以及显著影响因素的最佳水平等。方差分析是在可比较的数组中，把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量，采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和，这是一个很重要的思想。

　　经过方差分析若拒绝了检验假设，只能说明多个样本总体均数不相等或不全相等。若要得到各组均数间更详细的信息，应在方差分析的基础上进行多个样本均数的两两比较。

　　1、多个样本均数间两两比较

多个样本均数间两两比较常用q检验的方法，即Newman-kueuls法，其基本步骤为：建立检验假设-->样本均数排序-->计算q值-->查q界值表判断结果。

　　2、多个实验组与一个对照组均数间两两比较

　　多个实验组与一个对照组均数间两两比较，若目的是减小第II类错误，最好选用最小显著差法（LSD法）；若目的是减小第I类错误，最好选用新复极差法，前者查t界值表，后者查q'界值表。