数理统计知识点备注

【参考资料】
【1】《概率论和梳理统计》

备注: 近期发现参数估计、假设检验相关点还是记不清，抽一点时间根据课本复习一下。

1 总体与样本

定义: 若随机变量$X_1, X_2, \dots , X_3 $相互独立，且每一个$ X_i $与X具有相同的分布，则n维随机变量$ (X_1, X_2, \dots , X_n) $为来自X的==样本==。它的观测值$ (x_1, x_2, \dots, x_n) $为==样本观测值==, n为==样本容量==。$ (X_1, X_2, \dots , X_n)$能取值的全部集合称为样本空间，其观测值为空间中的一个点。

若总体X是连续随机变量，其概率密度函数为f(X)，那么 $(X_1, X_2, \dots , X_n)$ 的联合概率密度为:
$f^*(x_1, x_2, \dots , x_n) = \prod\limits_{i=1}^{n}f(x_i)$

备注：这里要注意的是取样本的时候，每取一次就是一个随机变量，它不同于联合概率分布。

统计量

样本均值: $\bar{x} = \dfrac{1}{n}\sum\limits_{i=1}^{n}x_i$

样本方差: $S_n^2=\dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i - \bar{X})^2$

k阶原点矩: $A_k = \dfrac{1}{n}\sum\limits_{i=1}^{n}X_i^k$

k阶中心矩: $B_k = \dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i - \bar{X})^k$

2 抽样分布

总体正态分布的线性函数

定理: 设总体符合正态分布 $N(u, \sigma^2)$ ， $(X_1, X_2, \dots , X_n)$ 为来自此总体的样本，那么统计量 $Y=\sum\limits_{i=1}^{n}a_i X_i$ 也符合正态分布，即 $Y \sim N(u \sum\limits_{i=1}^{n}a_i \quad , \quad \sigma^2 \sum\limits_{i=1}^{n}a_i^2)$

卡方分布( $\chi^2$ 分布)

定义: 设随机变量 $X_1, X_2, \dots , X_n$ 相互独立，且服从标准正态分布N(0,1)，则称 $\chi^2 = \sum\limits_{i=1}^{n}X_i^2$ 为服从自由度n的 $\chi$ 分布，记作 $\chi^2 \sim \chi^2(n)$

性质1: $E(\chi^2)=n$ 以及 $D(\chi^2)=2n$
性质2: 若 $\chi^2_1 \sim \chi^2(n)$ 、 $\chi^2_2 \sim \chi^2(m)$ ,两者相互独立，有 $\chi_1^2 + \chi_2^2 \sim \chi^2(n+m)$

t分布

定义: 设随机变量 $X \sim N(0,1)$ ， $Y \sim \chi^2(n)$ 且X、Y相互独立，称随机变量 $T=\dfrac{X}{\sqrt{Y/n}}$ 为自由度为n的t分布，记作 $T \sim t(n)$

性质1: E(T)=0，以及 $D(T)=\dfrac{n}{n-2}$
性质2: 当 $n \to \infty$ 时，其概率密度函数无限趋近与标准正态分布，即 $\phi(x) = \dfrac{1}{\sqrt{2 \pi}}e^{x^2/2}$

F分布

定义: 设 $X \sim \chi^2(m)$ ， $Y \sim \chi^2(n)$ ，X和Y相互独立，则称随机变量 $F=\dfrac{X/m}{Y/n}$ 为服从第一自由度为m、第二自由度为n的F分布，记作 $F \sim F(m,n)$ 。

性质1: $E(F)=\dfrac{n}{n-2}$ ，以及 $D(F)=\dfrac{n^2(2m+2n-4)}{m(n-2)^2(n-4)}$
性质2: 若 $F \sim F(m,n)$ ，则 $\dfrac{1}{F} \sim F(n, m)$
性质3: 设 $F \sim F(1, n)$ , $T \sim t(n)$ ，则 $F = T^2$

3 参数的点估计

实际问题中总体分布已经知道，但该分布的一些具体参数未知，解决这类问题我们称之为参数估计。其中利用已有样本的某种函数得到的数值来估计总体样本的参数，叫做“点估计”。

矩估计法

利用统计量的值求解未知参数，举例如下:

求解:总体符合[a, b]的均匀分布，有样本 $(X_1, X_2, \dots , X_n)$ ，求解a、b两个未知参数。

第一步: 列出矩估计等式
$\begin{cases} u_1 = E(X) = \dfrac{a+b}{2} \\ v_2 = D(X) = \dfrac{(b-a)^2}{12} \end{cases}$
第二步: 求解方程组，得到
$\begin{cases} a = u_1 + \sqrt{3 v_2} \\ b = u_1 - \sqrt{3 v_2} \end{cases}$
第三步: 将 $(X_1, X_2, \dots , X_n)$ 的矩估计值带入 $u_1 \quad v_2$ 得到a和b的解

极大似然估计法

设存在未知参数 $\theta$ 的总体X概率分布密度为 $f(x;\theta)$ ，则样本的似然函数是 $L(\theta)=L(x_1, x_2, \dots, x_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta)$ 。

极大似然估计法的思路就是认为该参数能够得到似然函数的最大值，即有最大的概率存在。举例:

求解:总体的分布密度函数为

$f(x_i;k)= \begin{cases} (k+2)x^{k+1} & 0 < x < 1 \\ 0 & other \end{cases}$
有样本 $(X_1, X_2, \dots , X_n)$ ，求未知参数k。

第一步: 构造似然函数
$L(k)=\prod\limits_{i=1}^{n}(k+2)x_i^{k+1}$

第二步: 两边取ln，并通过对k的导数求极值
$ln(L(k))=n ln(k+2) + (k + 1) \sum\limits_{i=1}^{n}ln x_i$

$\dfrac{\partial ln(L(k))}{\partial k} = \dfrac{n}{k+2} + \sum\limits_{i=1}^{n}ln x_i = 0$
$k = -2- \dfrac{n}{\sum\limits_{i=1}^{n}ln x_i}$

第三步: 由其二阶导数小于0，可以此时k是极大似然估计得到的参数。备注:这个值与矩估计得到的结果不一样！！

3 参数的区间估计

定义: 设 $\theta$ 是总体的未知参数， $(X_1, X_2, \dots , X_n)$ 是总体的样本，若给定常数a(0 < a < 1),可以确定两个统计量 $\underline{\theta}=\underline{\theta}(X_1, X_2, \dots , X_n)$ 和 $\bar{\theta}=\bar{\theta}(X_1, X_2, \dots , X_n)$ 使得 $P(\underline{\theta} < \theta < \bar{\theta}) < 1-a$ 称随机区间 $[\underline{\theta}, \bar{\theta}]$ 为参数 $\theta$ 的1-a置信区间或区间估计。1-a为置信度。

举例(重要)：

++备注：此处为 $\sigma^2$ 已知,求u的置信区间的例子++

有总体分布 $X \sim N(u, 4)$ ，均值u未知，已知X一组容量为n=25的样本均值 $\bar{x}=7.50$ ,求这个样本均值置信度为1-a = 0.95的置信区间。

第一步：构造一个新的样本函数，使得新的样本函数不依赖参数
$U = \dfrac{\bar{X}-u}{\sigma}\sqrt{n} \sim N(0, 1)$

第二步: 依据标准正态分布的双侧分位数，得到
$P(|\dfrac{\bar{X}-u}{\sigma}\sqrt{n}| < u_{a/2})=1-a$

第三步：根据上式得到u的1-a置信区间为
$(\bar{X} - \dfrac{\sigma}{\sqrt{n}}u_{a/2}, \bar{X} + \dfrac{\sigma}{\sqrt{n}}u_{a/2})$

第四步：通过查表可以知道 $u_{0.025}=1.96$ ，带入后即可得到区间值

单正态分布区间估计 – $\sigma^2$ 已知,求u的置信区间

构造： $U = \dfrac{\bar{X} - u}{\sigma}\sqrt{n} \sim N(0, 1)$

单正态分布区间估计 – $\sigma^2$ 未知,求u的置信区间

构造: $T=\dfrac{\bar{X} - u}{S}\sqrt{n} \sim t(n-1)$
其中 $S^2$ 是 $\sigma^2$ 的无偏估计值

单正态分布区间估计 – u已知,求 $\sigma^2$ 的置信区间

构造: $\chi^2 = \dfrac{1}{\sigma^2}\sum\limits_{i=1}^{n}(X_i - u)^2 \sim \chi^2(X)$

单正态分布区间估计 – u未知,求 $\sigma^2$ 的置信区间

构造: $\chi^2 = \dfrac{1}{\sigma^2}\sum\limits_{i=1}^{n}(X_i - u)^2 = \dfrac{nS_n^2}{\sigma^2} \sim \chi^2(n - 1)$

4 假设检验

总体均值u的假设检验 – $\sigma^2$ 已知,求u的置信区间

设 $(X_1, X_2, \dots , X_n)$ 为取自总体X的一个样本，样本均值为 $\bar{X}$ , $u_0$ 为已知常数。

第一步：确定假设
检验原假设 $H_0 : u = u_0$ ，备择假设 $H_1: u \ne u_0$

第二步: 选择检验统计量
$U = \dfrac{\bar{X} - u}{\sigma}\sqrt{n} \sim N(0, 1)$

第三步：判断拒绝域
在这里插入图片描述

备注：上图印刷不清楚，中间应该是1-a，其中a是显著性水平，诸如0.05

由 $P(|U| \ge u_{a/2} ) = a$ 得到 $|u| = |\dfrac{\bar{x} - u_0}{\sigma/\sqrt{n}}| \ge u_{a/2}$

备注：上面式子有口语表述即，若随机变量U大于或小于 $u_{a/2}$ 那么它的概率将小于a，即可以被拒绝。

第四步:通过查找标准正态分布表获取 $u_{a/2}$ 的值，并判断当前的样本均值带入U后是否符合拒绝域。