数理统计基础

因本人刚开始写博客，学识经验有限，如有不正之处望读者指正，不胜感激；也望借此平台留下学习笔记以温故而知新。这一篇文章介绍的是数理统计的理论知识，作为数据分析的基础课程。

基本框架

四大分布

1. 正态分布
若连续型随机变量X的概率密度为：

$f\left( x \right) = \frac{1}{{\sqrt {2\pi } \sigma }}{e^{ - \frac{{{{\left( {x - u} \right)}^2}}}{{2{\sigma ^2}}}}}$

X服从参数为 $\mu ,{\sigma ^2}$ 的正态分布，记为 ${\rm{X}} \sim N(\mu ,{\sigma ^2})$ 。

2. 卡方分布

设随机变量 ${X_1},{X_2}, \cdots ,{X_n}$ 相互独立,都服从正态分布 $N(0,1)$ , 则称随机变量：

${\chi ^2}{\rm{ = }}X_1^2 + X_2^2 + \cdots + X_n^2$

服从的分布为自由度为n 的 $${\chi ^2}$ 分布，记为 ${\chi ^2} \sim {\chi ^2}\left( n \right)$ 。

3. t分布
设 $X \sim N(0,1)$ ， $Y \sim {\chi ^2}\left( n \right)$ ，X,Y相互独立，则：

$T = \frac{X}{{\sqrt {Y/n} }}$

称T服从自由度为n的t分布。

4. F分布

若 $X \sim {\chi ^2}\left( {{n_1}} \right)$ ， $Y \sim {\chi ^2}\left( {{n_2}} \right)$ ，X,Y相互独立，则称随机变量

$F = \frac{{X/{n_1}}}{{Y/{n_2}}}$

服从第一自由度为 ${{n_1}}$ ，第二自由度为 ${{n_2}}$ 的F分布。

5. 各分布的主要用途:

卡方分布：用于分类变量的卡方检验。

F分布：多用于方差比例的检验，用于方差分析、回归分析和方差齐性检验。

t分布：在信息不足的情况下，一般使用t 分布，比如在总体方差不知的情况下，对总体均值的检验用t统计量。

数据集中趋势

数据集中趋势的度量包括：均值（mean），分位数，中位数（median），众数（mode）。

1. 平均数：一个数列的和除以所含个数。

2. 分位数: 最大值和最小值之间的一个数值，可使变量的一部分观察值小于或等于它，另一部分观察值大于或等于它。

3. 百分位数：按照升序排列的数列中，其左侧的观察个数在整个样本中所占的百分比为p%,其右侧的观察个数在整个样本中所占的百分比为（100-p）%。

4. 中位数：一组数据按大小顺序排列后，处在数列中点位置的数值，
n为奇数时，其值等于第(n+1)/2个数；
n为偶数时，其值等于第n/2和n/2+1个数的平均值。

5. 众数：一组数据中出现次数最多的变量值。

数据离中趋势

数据离中趋势的度量包括：全距，分位距，方差，离散系数。

1. 全距：也称极差，是一组数据的最大值与最小值之差。

2. 四分位间距：将特殊的3个分位数 ${X_{25\% }}$ , ${X_{50\% }}$ , ${X_{75\% }}$ 统称为四分位数，且分别称为第一四分位数，第二四分位数和第三四分位数，并记为 ${Q_1}$ , ${Q_2}$ 和 ${Q_3}$ ，其中 ${Q_3}$ 与 ${Q_1}$ 的差值为四分位间距。

3. 方差：一组数据中各数值与其算术平均数离差平方的平均数。

4. 离散系数：标准差与其相应的均值之比，表示为百分数：

$cv = \frac{s}{{\bar x}}$

分布形态

数据分布形态的度量包括：偏态系数，峰度系数。

1. 偏态系数（SK）：是对数据分布的不对称性（偏斜程度）的测度，偏态系数有多种计算方法，下面提供一种常用方法：

$SK = \frac{n}{{\left( {n - 1} \right)\left( {n - 2} \right)}}{\sum {\left( {\frac{{{x_i} - \bar x}}{s}} \right)} ^3}$

数据向哪边延伸偏移的多，就说数据是对应边的偏态分布，其中偏态系数越大，说明偏斜越严重。

2. 峰度系数（K）：数据分布峰度的度量值，对数据分布尖峰或扁平程度的测度，下面提供一种常用方法：

$K = \frac{{n\left( {n + 1} \right)}}{{\left( {n - 1} \right)\left( {n - 2} \right)\left( {n - 3} \right)}}{\sum {\left( {\frac{{{x_i} - \bar x}}{s}} \right)} ^4} - \frac{{3{{\left( {n - 1} \right)}^2}}}{{\left( {n - 2} \right)\left( {n - 3} \right)}}$

峰度系数越大，分布曲线形状越尖。

抽样估计

1. 总体：数据统计所要研究的全体。

2. 样本：按照随机原则，从全部总体中抽取出来的个体。

3. 中心极限定理：变量和的分布近似于正态分布，其重点关注“变量和的分布”。

4. 抽样平均误差：

${\mu _{\bar x}} = \sqrt {\frac{{{\sigma ^2}}}{n}}$

5. 点估计：直接以样本指标的实际值直接作为总体参数的估计值，常用的样本统计量：样本均值和样本方差。

6. 区间估计：在一定的概率保证程度下，选定一个区间 $\Delta {\rm{ = }}t{\mu _{\bar x}}$ ，并根据样本指标和区间进行总体指标数值估计所在的可能范围，表达如下：

$\bar x - t{\mu _{\bar x}} \le \bar X \le \bar x + t{\mu _{\bar x}}$

其中，t的取值需要根据置信度查正态分布概率表：
1~68.27%；1.64~90%；1.96~95%；2~95.45%；3~99.73%

假设检验

假设检验的核心：拒绝原假设，即小概率事件原理。

假设检验包括：P值检验，单样本T检验、两独立样本T检验等。

1. P值检验：利用来自总体的样本数据，推断该总体的均值是否与假设的检验值之间存在显著性差异。
当原假设为真时，检验统计量大于或等于实际观测值的概率，在双侧检验中，拒绝原假设的最小显著性水平为：

$p = p\left\{ {\left| Z \right| > {Z_0}} \right\}$

当给定显著性水平 $\alpha$ 时，
A．当 $p < \alpha$ 时，则在显著性水平下拒绝原假设。
B．当 $p \ge \alpha$ 时，则在显著性水平下不拒绝原假设。
用P值作检验，可以准确地知道检验的显著性水平，P值实际上就是放弃真错误的概率，也就是检验的真实显著性水平。

2. 单样本T检验：构造检验统计量

$t = \frac{{\bar X - \mu }}{{\sqrt {\frac{{{S^2}}}{{n - 1}}} }} \sim t\left( {n - 1} \right)$

3. 两独立样本T检验：利用来自两个正态总体的独立样本，推断两个总体的均值是否存在显著差异。

当两总体分布分别为 $N({\mu _1},\sigma _1^2)$ 和 $N({\mu _2},\sigma _2^2)$ 时，两样本均值差的抽样分布仍为正态分布，该正态分布的均值为 ${\mu _1} - {\mu _2}$ ，方差为 $\sigma _{12}^2$ 。在不同的情况下， $\sigma _{12}^2$ 有不同的计算方式：
第一种情况：当两总体方差未知且相等，即 ${\sigma _1} = {\sigma _2}$ 时，采用合并方差作为两个总体方差的估计，数学定义为：

$S{p^2} = \frac{{({n_1} - 1)S_1^2 + ({n_2} - 1)S_2^2}}{{{n_1} + {n_2} - 2}}$

$\sigma _{12}^2 = \frac{{S{p^2}}}{{{n_1}}} + \frac{{S{p^2}}}{{{n_2}}}$

第二种情况：当两总体方差未知且不相等，即 ${\sigma _1} \ne {\sigma _2}$ 时，分别采用各自的方差，此时两样本均值差的抽样分布的方差为：

$\sigma _{12}^2 = \frac{{{S^2}}}{{{n_1}}} + \frac{{{S^2}}}{{{n_2}}}$

于是，两总体均值差检验的检验统计量为统计量，数学定义为：

$t = \frac{{{{\bar X}_1} - {{\bar X}_2} - ({\mu _1} - {\mu _2})}}{{\sqrt {\sigma _{12}^2} }}$

4. 单样本K-S检验：用来检验一个数据的观测经验分布是否是已知的理论分布。

5. 配对样本T检验：用来检验来自两个总体的配对样本的总体均值是否存在显著性差异。

方差分析

需要比较多个总体均值时，需要用到方差分析，下面介绍单因素方差分析的相关统计量：

总离差平方和，或称总平方和，反映全部试验数据之间的差异：

$SST = \sum\limits_{i = 1}^m {\sum\limits_{j = 1}^{{n_i}} {{{\left( {{x_{ij}} - \bar x} \right)}^2}} }$

组间离差平方和，或称组间平方和，反映每组数据均值与总平均值的误差：

$SSM = \sum\limits_{i = 1}^m {\sum\limits_{j = 1}^{{n_i}} {{{\left( {{x_{i.}} - \bar x} \right)}^2}} } = \sum\limits_{i = 1}^m {{n_i}{{\left( {{{\bar x}_{i.}} - \bar x} \right)}^2}}$

组内离差平方和，或称误差平方和，反映组内数据与组内平均的随机误差：

$SSE = \sum\limits_{i = 1}^m {\sum\limits_{j = 1}^{{n_i}} {{{\left( {{x_{ij}} - {{\bar x}_{i.}}} \right)}^2}} }$

构造检验统计量：

$F = \frac{{SSM/\left( {m - 1} \right)}}{{SSE/\left( {n - m} \right)}} \sim F\left( {m - 1,n - m} \right)$

相关与回归分析

1. 相关分析是对两个变量之间线性关系的描述与度量，相关系数是度量变量之间线性关系强度的一个统计量。

总体相关系数：

${\rho _{X,Y}} = \frac{{{\mathop{\rm cov}} (X,Y)}}{{{\sigma _X}{\sigma _Y}}} = \frac{{E\left[ {(X - {\mu _X})(Y - {\mu _Y})} \right]}}{{{\sigma _X}{\sigma _Y}}}$

样本相关系数：

$r = \frac{{n\sum {xy - } \sum x \sum y }}{{\sqrt {n\sum {{x^2} - } \left( {\sum x } \right){}^2} \sqrt {n\sum {{y^2} - } \left( {\sum y } \right){}^2} }}$

构造皮尔逊相关系数的检验统计量为：

$t = \frac{{r\sqrt {n - 2} }}{{\sqrt {1 - {r^2}} }} \sim t\left( {n - 2} \right)$

它是服从自由度为n-2的t分布，拒绝域 $W = \left\{ {\left| t \right| > {t_{\alpha /2}}} \right\}$

2. 一元线性回归的回归方程为：

$\hat y = {\hat \beta _0} + {\hat \beta _1}x$

参数估计：

${\hat \beta _1} = \frac{{n\sum\limits_{i = 1}^n {{x_i}{y_i}} - \left( {\sum\limits_{i = 1}^n {{x_i}} } \right)\left( {\sum\limits_{i = 1}^n {{y_i}} } \right)}}{{n\sum\limits_{i = 1}^n {x_i^2 - {{\left( {\sum\limits_{i = 1}^n {{x_i}} } \right)}^2}} }}$

${\hat \beta _0} = \bar y - {\hat \beta _1}\bar x$

给定判定系数 ${R^2}$

${R^2} = \frac{{SSR}}{{SST}} = \frac{{\sum\limits_{i = 1}^n {{{\left( {{{\hat y}_i} - \bar y} \right)}^2}} }}{{\sum\limits_{i = 1}^n {{{\left( {{y_i} - \bar y} \right)}^2}} }}$

3. 回归模型的检验

A. 回归方程的显著性检验（总体）

构造假设检验统计量：

$F = \frac{{SSR/1}}{{SST/\left( {n - 2} \right)}} = \frac{{\sum {{{\left( {\hat y - \bar y} \right)}^2}} /1}}{{\sum {{{\left( {y - \hat y} \right)}^2}} /\left( {n - 2} \right)}} \sim F\left( {1,n - 2} \right)$

B. 回归系数的显著性检验（部分）

C. 残差分析

参考文献

CDA远程网上视频课程
应用数理统计与SPSS操作赵喜林,李德宜,龚谊承