假设检验(四)(非参数假设检验)

在有些实际问题中,无法预知总体服从何种分布,而希望根据样本来检验对总体分布所提出的假设,或者想通过样本来检验对总体之间的关系所提出的假设。这一类问题就是非参数假设检验问题。非参数假设检验包括分布假设检验相同性检验独立性检验等。这里主要介绍分布假设检验。

分布假设检验

分布假设检验问题可表述为:设 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 为总体 X X X 的样本,欲据此样本检验假设
H 0 : X  的分布函数  F = F 0 H_0:X\ 的分布函数\ F=F_0 H0:X 的分布函数 F=F0 这里 F 0 F_0 F0 是一个已知的分布函数,通常称 F 0 F_0 F0理论分布

检验假设 H 0 H_0 H0 的基本思想是用样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 去拟合 F 0 F_0 F0。根据拟合的优良程度来推断假设 H 0 H_0 H0 成立与否。

把总体 X X X 的所有可能值的集合 S S S 分成 r r r 个两两不相交的子集 S 1 , S 2 , . . . , S r S_1,S_2,...,S_r S1,S2,...,Sr,当 H 0 H_0 H0 成立时,记
p i = P F 0 { X ∈ S i } , i = 1 , . . . , r p_i=P_{F_0}\{X\in S_i\},i=1,...,r pi=PF0{ XSi},i=1,...,r 又记
m i = X 1 , . . . , X n  落在 S i 内的频数, i = 1 , 2 , . . . , r m_i=X_1,...,X_n\ 落在 S_i 内的频数,i=1,2,...,r mi=X1,...,Xn 落在Si内的频数,i=1,2,...,r ( m i n − p i ) 2 (\frac{m_i}{n}-p_i)^2 (nmipi)2 刻画了样本落在 S i S_i Si 内的频率与总体 X X X S i S_i Si 内取值的概率的偏差。皮尔逊用 ( m i n − p i ) 2 (\frac{m_i}{n}-p_i)^2 (nmipi)2 的加权和 K n = ∑ i = 1 r n p i ( m i n − p i ) 2 = ∑ i = 1 r ( m i − n p i ) 2 n p i K_n=\sum_{i=1}^r \frac{n}{p_i}\left(\frac{m_i}{n}-p_i\right)^2 = \sum_{i=1}^r \frac{(m_i-np_i)^2}{np_i} Kn=i=1rpin(nmipi)2=i=1rnpi(minpi)2 来刻画样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 拟合 F 0 F_0 F0优度,并于 1900 年证明了如下的定理:

当假设 H 0 : X  的分布函数  F = F 0 H_0:X\ 的分布函数\ F=F_0 H0:X 的分布函数 F=F0 成立时, K n K_n Kn n → ∞ n\to \infty n 时具有极限分布 χ 2 ( r − 1 ) \chi^2(r-1) χ2(r1)

通常称定理中的统计量 K n K_n Kn皮尔逊 χ 2 \chi^2 χ2 统计量

K n K_n Kn 较小表示样本对 F 0 F_0 F0 拟合得好, K n K_n Kn 较大表示样本对 F 0 F_0 F0 拟合得不好,因此假设 H 0 H_0 H0 的拒绝域应取 W = { K n ≥ c } W=\{K_n\ge c\} W={ Knc} 的形式。对给定的水平 α \alpha α,查 χ 2 ( r − 1 ) \chi^2(r-1) χ2(r1) 分布表,得 χ α 2 ( r − 1 ) \chi^2_\alpha(r-1) χα2(r1),由此可得检验规则:若 K n ≥ χ α 2 ( r − 1 ) K_n\ge \chi^2_\alpha(r-1) Knχα2(r1),则拒绝 H 0 H_0 H0,否则接受 H 0 H_0 H0

在分布假设检验中,有时只能假定理论分布的函数类型,其中还含有未知参数,即,要由样本 X 1 , . . . , X n X_1,...,X_n X1,...,Xn 检验假设
H 0 : X  的分布函数  F = F θ H_0:X\ 的分布函数\ F=F_\theta H0:X 的分布函数 F=Fθ 这里 F θ F_\theta Fθ 是一个已知的分布类型,其中含有未知参数向量 θ = ( θ 1 , . . . , θ k ) T \boldsymbol{\theta}=(\theta_1,...,\theta_k)^T θ=(θ1,...,θk)T

在这种情况下,当 H 0 H_0 H0 成立且 n n n 充分大时,近似的有 K n ∼ χ 2 ( r − k − 1 ) K_n \sim \chi^2(r-k-1) Knχ2(rk1),其中 r r r 为分组的个数, k k k θ \boldsymbol{\theta} θ 的维数(即分布中所含未知参数的个数),并且 r > k + 1 r>k+1 r>k+1。于是可得修正后的检验规则:若 K n ≥ χ α 2 ( r − k − 1 ) K_n\ge \chi^2_\alpha(r-k-1) Knχα2(rk1),则拒绝 H 0 H_0 H0,否则接受 H 0 H_0 H0

χ 2 \chi^2 χ2 拟合检验具有许多优点。比如,无论总体 X X X 是离散的还是连续的,无论总体 X X X 是一维的还是多维的,也无论原假设的理论分布中是否含有未知参数,都适合用 χ 2 \chi^2 χ2 拟合检验 对总体的分布作假设检验。不过,它也存在不够精细的缺陷。

柯尔莫哥洛夫检验克服了 χ 2 \chi^2 χ2 拟合检验的这一缺陷,它能够真正检验出 F F F 是否与某个已知分布 F 0 F_0 F0 处处相同。不过,它只适用于总体的分布函数为连续函数的情形,而且一般还要求假设中的理论分布不含未知参数。

参考文献

[1] 《应用数理统计》,施雨,西安交通大学出版社。

猜你喜欢

转载自blog.csdn.net/myDarling_/article/details/134788116