数理统计知识点备注

【参考资料】
【1】《概率论和梳理统计》

备注: 近期发现参数估计、假设检验相关点还是记不清,抽一点时间根据课本复习一下。

1 总体与样本

定义: 若随机变量$X_1, X_2, \dots , X_3 相互独立,且每一个 X_i X n 与X具有相同的分布,则n维随机变量 (X_1, X_2, \dots , X_n) X = = = = 为来自X的==样本==。它的观测值 (x_1, x_2, \dots, x_n) = = = = , n = = = = 为==样本观测值==, n为==样本容量==。 (X_1, X_2, \dots , X_n)$能取值的全部集合称为样本空间,其观测值为空间中的一个点。

若总体X是连续随机变量,其概率密度函数为f(X),那么 ( X 1 , X 2 , , X n ) (X_1, X_2, \dots , X_n) 的联合概率密度为:
f ( x 1 , x 2 , , x n ) = i = 1 n f ( x i ) f^*(x_1, x_2, \dots , x_n) = \prod\limits_{i=1}^{n}f(x_i)

备注:这里要注意的是取样本的时候,每取一次就是一个随机变量,它不同于联合概率分布。

统计量

样本均值: x ˉ = 1 n i = 1 n x i \bar{x} = \dfrac{1}{n}\sum\limits_{i=1}^{n}x_i

样本方差: S n 2 = 1 n i = 1 n ( X i X ˉ ) 2 S_n^2=\dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i - \bar{X})^2

k阶原点矩: A k = 1 n i = 1 n X i k A_k = \dfrac{1}{n}\sum\limits_{i=1}^{n}X_i^k

k阶中心矩: B k = 1 n i = 1 n ( X i X ˉ ) k B_k = \dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i - \bar{X})^k

2 抽样分布
总体正态分布的线性函数

定理: 设总体符合正态分布 N ( u , σ 2 ) N(u, \sigma^2) ( X 1 , X 2 , , X n ) (X_1, X_2, \dots , X_n) 为来自此总体的样本,那么统计量 Y = i = 1 n a i X i Y=\sum\limits_{i=1}^{n}a_i X_i 也符合正态分布,即 Y N ( u i = 1 n a i , σ 2 i = 1 n a i 2 ) Y \sim N(u \sum\limits_{i=1}^{n}a_i \quad , \quad \sigma^2 \sum\limits_{i=1}^{n}a_i^2)

卡方分布( χ 2 \chi^2 分布)

定义: 设随机变量 X 1 , X 2 , , X n X_1, X_2, \dots , X_n 相互独立,且服从标准正态分布N(0,1),则称 χ 2 = i = 1 n X i 2 \chi^2 = \sum\limits_{i=1}^{n}X_i^2 为服从自由度n的 χ \chi 分布,记作 χ 2 χ 2 ( n ) \chi^2 \sim \chi^2(n)

性质1: E ( χ 2 ) = n E(\chi^2)=n 以及 D ( χ 2 ) = 2 n D(\chi^2)=2n
性质2: 若 χ 1 2 χ 2 ( n ) \chi^2_1 \sim \chi^2(n) χ 2 2 χ 2 ( m ) \chi^2_2 \sim \chi^2(m) ,两者相互独立,有 χ 1 2 + χ 2 2 χ 2 ( n + m ) \chi_1^2 + \chi_2^2 \sim \chi^2(n+m)

t分布

定义: 设随机变量 X N ( 0 , 1 ) X \sim N(0,1) Y χ 2 ( n ) Y \sim \chi^2(n) 且X、Y相互独立,称随机变量 T = X Y / n T=\dfrac{X}{\sqrt{Y/n}} 为自由度为n的t分布,记作 T t ( n ) T \sim t(n)

性质1: E(T)=0,以及 D ( T ) = n n 2 D(T)=\dfrac{n}{n-2}
性质2: 当 n n \to \infty 时,其概率密度函数无限趋近与标准正态分布,即 ϕ ( x ) = 1 2 π e x 2 / 2 \phi(x) = \dfrac{1}{\sqrt{2 \pi}}e^{x^2/2}

F分布

定义: 设 X χ 2 ( m ) X \sim \chi^2(m) Y χ 2 ( n ) Y \sim \chi^2(n) ,X和Y相互独立,则称随机变量 F = X / m Y / n F=\dfrac{X/m}{Y/n} 为服从第一自由度为m、第二自由度为n的F分布,记作 F F ( m , n ) F \sim F(m,n)

性质1: E ( F ) = n n 2 E(F)=\dfrac{n}{n-2} ,以及 D ( F ) = n 2 ( 2 m + 2 n 4 ) m ( n 2 ) 2 ( n 4 ) D(F)=\dfrac{n^2(2m+2n-4)}{m(n-2)^2(n-4)}
性质2: 若 F F ( m , n ) F \sim F(m,n) ,则 1 F F ( n , m ) \dfrac{1}{F} \sim F(n, m)
性质3: 设 F F ( 1 , n ) F \sim F(1, n) , T t ( n ) T \sim t(n) ,则 F = T 2 F = T^2

3 参数的点估计

实际问题中总体分布已经知道,但该分布的一些具体参数未知,解决这类问题我们称之为参数估计。其中利用已有样本的某种函数得到的数值来估计总体样本的参数,叫做“点估计”。

矩估计法

利用统计量的值求解未知参数,举例如下:

求解:总体符合[a, b]的均匀分布,有样本 ( X 1 , X 2 , , X n ) (X_1, X_2, \dots , X_n) ,求解a、b两个未知参数。

第一步: 列出矩估计等式
{ u 1 = E ( X ) = a + b 2 v 2 = D ( X ) = ( b a ) 2 12 \begin{cases} u_1 = E(X) = \dfrac{a+b}{2} \\ v_2 = D(X) = \dfrac{(b-a)^2}{12} \end{cases}
第二步: 求解方程组,得到
{ a = u 1 + 3 v 2 b = u 1 3 v 2 \begin{cases} a = u_1 + \sqrt{3 v_2} \\ b = u_1 - \sqrt{3 v_2} \end{cases}
第三步: 将 ( X 1 , X 2 , , X n ) (X_1, X_2, \dots , X_n) 的矩估计值带入 u 1 v 2 u_1 \quad v_2 得到a和b的解

极大似然估计法

设存在未知参数 θ \theta 的总体X概率分布密度为 f ( x ; θ ) f(x;\theta) ,则样本的似然函数是 L ( θ ) = L ( x 1 , x 2 , , x n ; θ ) = i = 1 n f ( x i ; θ ) L(\theta)=L(x_1, x_2, \dots, x_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta)

极大似然估计法的思路就是认为该参数能够得到似然函数的最大值,即有最大的概率存在。举例:

求解:总体的分布密度函数为

f ( x i ; k ) = { ( k + 2 ) x k + 1 0 < x < 1 0 o t h e r f(x_i;k)= \begin{cases} (k+2)x^{k+1} & 0 < x < 1 \\ 0 & other \end{cases}
有样本 ( X 1 , X 2 , , X n ) (X_1, X_2, \dots , X_n) ,求未知参数k。

第一步: 构造似然函数
L ( k ) = i = 1 n ( k + 2 ) x i k + 1 L(k)=\prod\limits_{i=1}^{n}(k+2)x_i^{k+1}

第二步: 两边取ln,并通过对k的导数求极值
l n ( L ( k ) ) = n l n ( k + 2 ) + ( k + 1 ) i = 1 n l n x i ln(L(k))=n ln(k+2) + (k + 1) \sum\limits_{i=1}^{n}ln x_i

l n ( L ( k ) ) k = n k + 2 + i = 1 n l n x i = 0 \dfrac{\partial ln(L(k))}{\partial k} = \dfrac{n}{k+2} + \sum\limits_{i=1}^{n}ln x_i = 0
k = 2 n i = 1 n l n x i k = -2- \dfrac{n}{\sum\limits_{i=1}^{n}ln x_i}

第三步: 由其二阶导数小于0,可以此时k是极大似然估计得到的参数。备注:这个值与矩估计得到的结果不一样!!

3 参数的区间估计

定义: 设 θ \theta 是总体的未知参数, ( X 1 , X 2 , , X n ) (X_1, X_2, \dots , X_n) 是总体的样本,若给定常数a(0 < a < 1),可以确定两个统计量 θ = θ ( X 1 , X 2 , , X n ) \underline{\theta}=\underline{\theta}(X_1, X_2, \dots , X_n) θ ˉ = θ ˉ ( X 1 , X 2 , , X n ) \bar{\theta}=\bar{\theta}(X_1, X_2, \dots , X_n) 使得 P ( θ &lt; θ &lt; θ ˉ ) &lt; 1 a P(\underline{\theta} &lt; \theta &lt; \bar{\theta}) &lt; 1-a 称随机区间 [ θ , θ ˉ ] [\underline{\theta}, \bar{\theta}] 为参数 θ \theta 的1-a置信区间或区间估计。1-a为置信度

举例(重要):

++备注:此处为 σ 2 \sigma^2 已知,求u的置信区间 的例子++

有总体分布 X N ( u , 4 ) X \sim N(u, 4) ,均值u未知,已知X一组容量为n=25的样本均值 x ˉ = 7.50 \bar{x}=7.50 ,求这个样本均值置信度为1-a = 0.95的置信区间。

第一步:构造一个新的样本函数,使得新的样本函数不依赖参数
U = X ˉ u σ n N ( 0 , 1 ) U = \dfrac{\bar{X}-u}{\sigma}\sqrt{n} \sim N(0, 1)

第二步: 依据标准正态分布的双侧分位数,得到
P ( X ˉ u σ n &lt; u a / 2 ) = 1 a P(|\dfrac{\bar{X}-u}{\sigma}\sqrt{n}| &lt; u_{a/2})=1-a

第三步:根据上式得到u的1-a置信区间为
( X ˉ σ n u a / 2 , X ˉ + σ n u a / 2 ) (\bar{X} - \dfrac{\sigma}{\sqrt{n}}u_{a/2}, \bar{X} + \dfrac{\sigma}{\sqrt{n}}u_{a/2})

第四步:通过查表可以知道 u 0.025 = 1.96 u_{0.025}=1.96 ,带入后即可得到区间值

单正态分布区间估计 – σ 2 \sigma^2 已知,求u的置信区间

构造: U = X ˉ u σ n N ( 0 , 1 ) U = \dfrac{\bar{X} - u}{\sigma}\sqrt{n} \sim N(0, 1)

单正态分布区间估计 – σ 2 \sigma^2 未知,求u的置信区间

构造: T = X ˉ u S n t ( n 1 ) T=\dfrac{\bar{X} - u}{S}\sqrt{n} \sim t(n-1)
其中 S 2 S^2 σ 2 \sigma^2 的无偏估计值

单正态分布区间估计 – u已知,求 σ 2 \sigma^2 的置信区间

构造: χ 2 = 1 σ 2 i = 1 n ( X i u ) 2 χ 2 ( X ) \chi^2 = \dfrac{1}{\sigma^2}\sum\limits_{i=1}^{n}(X_i - u)^2 \sim \chi^2(X)

单正态分布区间估计 – u未知,求 σ 2 \sigma^2 的置信区间

构造: χ 2 = 1 σ 2 i = 1 n ( X i u ) 2 = n S n 2 σ 2 χ 2 ( n 1 ) \chi^2 = \dfrac{1}{\sigma^2}\sum\limits_{i=1}^{n}(X_i - u)^2 = \dfrac{nS_n^2}{\sigma^2} \sim \chi^2(n - 1)

4 假设检验
总体均值u的假设检验 – σ 2 \sigma^2 已知,求u的置信区间

( X 1 , X 2 , , X n ) (X_1, X_2, \dots , X_n) 为取自总体X的一个样本,样本均值为 X ˉ \bar{X} , u 0 u_0 为已知常数。

第一步:确定假设
检验原假设 H 0 : u = u 0 H_0 : u = u_0 ,备择假设 H 1 : u u 0 H_1: u \ne u_0

第二步: 选择检验统计量
U = X ˉ u σ n N ( 0 , 1 ) U = \dfrac{\bar{X} - u}{\sigma}\sqrt{n} \sim N(0, 1)

第三步:判断拒绝域
在这里插入图片描述

备注:上图印刷不清楚,中间应该是1-a,其中a是显著性水平,诸如0.05

P ( U u a / 2 ) = a P(|U| \ge u_{a/2} ) = a 得到 u = x ˉ u 0 σ / n u a / 2 |u| = |\dfrac{\bar{x} - u_0}{\sigma/\sqrt{n}}| \ge u_{a/2}

备注:上面式子有口语表述即,若随机变量U大于或小于 u a / 2 u_{a/2} 那么它的概率将小于a,即可以被拒绝。

第四步:通过查找标准正态分布表获取 u a / 2 u_{a/2} 的值,并判断当前的样本均值带入U后是否符合拒绝域。

猜你喜欢

转载自blog.csdn.net/Fredric_2014/article/details/84032633