《商务与经济统计学》读书笔记 6
1 相关概念
置信区间(confidence interval):用一个区间范围来估计总体参数,和点估计对比。
点估计:用一个数值来估计总体参数。
置信系数(confidence coefficient):置信区间包含总体参数的概率。
- 置信水平(confidence level):置信系数的百分比表示形式。
- 常见目标参数
参数 | 概念 | 数据类型 |
---|---|---|
|
均值;平均数 | 定量 |
|
比例;百分比 | 定性 |
|
方差;变异;散步 | 定量 |
2 置信区间—单样本的统计推断
2.1 大样本置信区间:正太(
z
)统计量
对于正太分布(
z 分布)的统计量,μ 在大样本下(1−α )的置信区间
α 已知:x¯±zα/2σx=x¯±zα/2σn√
α 未知:x¯±zα/2σx=x¯±zα/2sn√
大样本置信区间的条件:
1.目标总体中选择一个随机样本
2.样本容量很大(
2.2 小样本置信区间:学生(
t
)统计量
(
t 分布)的统计量,μ 在小样本下(1−α )的置信区间
α 已知:x¯±tα/2σx¯=x¯±tα/2σn√
α 未知:x¯±tα/2σx=x¯±tα/2sn√
其中tα/2 是基于n−1 个自由度t 分布中右尾面积α/2 对应的t 值。
小样本置信区间的条件:
1.目标总体中选择一个随机样本
2.总体相对频数分布近似于标准正态分布。
2.3 大样本置信区间:总体比例(
p
)统计量
对于重复抽样分布(
p^ 分布)的统计量,p 的大样本下(1−α )的置信区间
p^±zα/2σp^=p^±zα/2pqn−−−√
说明:
1.p^ 的抽样分布均值是p ,p^是p的无偏估计值 。
2.p^ 的抽样分布标准差是pq/n−−−−√ ,其中q=1−p 。
3.对于大样本,p^ 的抽样分布是近似正太的,如果np^≥15 和nq^≥15 同时成立,样本被视为大样本。
大样本置信区间的条件:
1.目标总体中选择一个随机样本
2.样本容量很大(如果
当
总体比例
p 调整后的置信区间。
p˘±zα/2σp˘=p˘±zα/2p˘(1−p˘)n+4−−−−−−−−√
其中,p˘=x+2n+4 。
2.4 样本量的确定
- 总体均值
根据μ 的1−α 置信区间确定样本量
zα/2(σn√)=ME
则可以得到
n=(zα/2)2σ2ME2
- 总体比例
根据p 的1−α 置信区间确定样本量
zα/2(pqn−−−√)=ME
则可以得到
n=(zα/2)2pqME2
2.5 总体方差
(σ2)
统计量:
χ2
分布
σ2的1−α 的置信区间
(n−1)s2χ2α/2≤σ2≤(n−1)s2χ2(1−α/2)
χ2α/2和χ2(1−α/2) 代表自由度为n−1 的卡方分布右尾和左尾面积为α/2 所对应的值。
1.从目标总体中选择一个随机样本。
2.总体的频率分布近似正太。
3 假设检验—单样本统计推断
3.1检验统计量、拒绝域及
P
值
检验统计量和拒绝域
原假设(H0 ):μ=μ0
备择假设(Ha ):μ≠μ0
检验统计量:z=x¯−μσx¯=x¯−μσ/n√
当
z 落在拒绝域时,我们认为这是一个小概率事件(p=α ),发生的可能性非常低,因此原假设不正确,因而拒绝原假设。
当z 落在接受区域,则没有充分的理由来拒绝原假设。(但是也没有充分理由接受原假设)此时涉及两类错误:
第I类错误:H0 为真的情况下拒绝原假设而接受备择假设,犯第I类错误的概率为α 。
第II类错误:H0 为假的情况下接受原假设,犯第II类错误的概率为β 。结论 H0 为真Ha 为真接受 H0 正确决定 第II类错误(概率为 β )拒绝 H0 第I类错误(概率为 α )正确决定 p 值:显著性水平
1.计算z 值,zp=x¯−μσx¯
2.如果是单侧检验,那么p值就是靠近备择假设区域的面积。
如备择假设是> ,那么p=P(z>zp) 如备择假设是< ,那么p=P(z<zp) ;
3.如果是双侧检验,那么那么p值就是靠近备择假设区域的面积的两倍。
p=P(z>|zp|) p 值作为检验结果的优势:
1.p 小于显著水平α ,那么拒绝原假设。
2.可以通过p 来确定能容忍的最大α 值。
3.2 假设检验:正太(
z
);学生(
t
);比例(
p
);总体方差
- 双侧检验:
统计量 | 大样本总体均值 | 小样本总体均值 | 总体比例(
|
总体方差 |
---|---|---|---|---|
分布 | 正太(
|
学生(
|
(
|
|
|
|
|
|
|
|
|
|
|
|
检验统计量 |
|
|
|
|
拒绝域 |
|
|
|
|
4 置信区间和假设检验—两样本的统计推断
- 目标参数:
参数 | 概念 | 数据类型 |
---|---|---|
|
均值差;平均上的差异 | 定量 |
|
比例差;百分比差;比率差 | 定性 |
|
方差比值;变异差异 | 定量 |
4.1 大样本总体均值
-
x1¯−x2¯ 抽样分布性质
1.x1¯−x2¯ 的抽样分布均值是μ1¯−μ2¯ 。
2.如果两个样本相互独立,抽样分布的标准差:
σ(x¯1−x¯2)=σ21n1+σ22n2−−−−−−−−√
3.根据中心极限定理,x1¯−x2¯ 的抽样分布在大样本下近似服从正太分布。
独立大样本情况下
μ1−μ2 的置信区间:正太z
(x1¯−x2¯)±za/2(σ(x1¯−x2¯)=(x1¯−x2¯)±za/2σ21n1+σ22n2−−−−−−−√≈(x1¯−x2¯)±za/2s21n1+s22n2−−−−−−−√
独立大样本情况下μ1−μ2 的假设检验:正太z
单侧检验 双侧检验 H0 μ1−μ2=D0 μ1−μ2=D0 Ha μ1−μ2<D0 (或μ1−μ2>D0 )μ1−μ2≠D0 检验统计量 z z=(x1¯−x2¯)−D0σ(x¯1−x¯2)=(x1¯−x2¯)−D0σ21n1+σ22n2√≈(x1¯−x2¯)−D0s21n1+s22n2√ 拒绝域 z<−zα 或z>zα |z|>zα/2 有效大样本统计推断条件 1.两个样本独立的方式从总体中随机抽取
2样本量n1和n2 都很大。
4.2 小样本总体均值
- 混合样本估计量
s2p
1.σ2 混合样本估计量表示为s2p
s2p=(n1−1)s21+(n2−1)s22(n1−1)+(n2−1)=(n1−1)s21+(n2−1)s22(n1+n2−2)
独立小样本情况下
μ1−μ2 的置信区间:学生t
(x1¯−x2¯)±ta/2s2p(1n1+1n2)−−−−−−−−−−√=(x1¯−x2¯)±ta/2(n1−1)s21+(n2−1)s22(n1+n2−2)(1n1+1n2)−−−−−−−−−−−−−−−−−−−−√
独立小样本情况下μ1−μ2 的假设检验:正太t
单侧检验 双侧检验 H0 μ1−μ2=D0 μ1−μ2=D0 Ha μ1−μ2<D0 (或μ1−μ2>D0 )μ1−μ2≠D0 检验统计量 t t=(x1¯−x2¯)−D0s2p(1n1+1n2)√ 拒绝域 t<−tα 或t>tα |t|>tα/2 有效大样本统计推断条件 1.两个样本独立的方式从两个目标总体中随机抽取
2两个被抽样的总体近似服从正态分布
3两个总体具有相同的方差(σ21=σ22 )
- 若
σ21≠σ22 的情况
1. 样本量相同(
n1=n2=n )
置信区间:(x1¯−x2¯)±ta/2(s21+s22)/n−−−−−−−−−√
H0:μ1−μ2=0 下的检验统计量:t=(x1¯−x2¯)(s21+s22)/n−−−−−−−−−√
t 是基于自由度v=n1+n2−2=2(n−1) 。
2. 样本量不相同(n1≠n2 )
置信区间:(x1¯−x2¯)±ta/2(s21/n1+s22/n2)−−−−−−−−−−−−−√
H0:μ1−μ2=0 下的检验统计量:t=(x1¯−x2¯)(s21/n1+s22/n2)−−−−−−−−−−−−−√
t 是基于自由度v=(s21/n1+s22/n2)2(s21/n1)2n1−1+(s22/n2)2n2−1 。
4.3 配对差异试验
对于某些情况,由于某些原因不再符合独立样本,比如考察毕业生男生和女生工资薪酬均值差,如果是独立样本,结果可能因为专业和平均成绩差异而变化比较大,因此可以根据专业和平均成绩进行匹配。
配对差异试验的置信区间:
配对差异试验
μd=(μ1−μ2) 的置信区间。- 大样本
d¯±zα/2σdnd√≈d¯±zα/2σdnd√ - 小样本
d¯±tα/2σdnd√
其中,tα/2 是基于自由度为nd−1 的。
- 大样本
配对差异试验的假设检验:
单侧检验 双侧检验 H0 μd=D0 μd=D0 Ha μd<D0 (或μd>D0 )μd≠D0 大样本 检验统计量 z z=d¯−D0σd/nd√≈d¯−D0sd/nd√ 拒绝域 z<−zα 或z>zα |z|>zα/2 有效大样本统计推断条件 1随机样本差值是从两个目标总体中随机抽取
2样本量nd 很大(σ21=σ22 )小样本 检验统计量 t t=d¯−D0sd/nd√ 拒绝域 t<−tα 或t>tα |t|>tα/2 有效小样本统计推断条件 1.随机样本差值是从两个目标总体中随机抽取
2总体差异近似服从正态分布
4.3 总体比例
-
p1^−p2^ 抽样分布性质
1.p1^−p2^ 的抽样分布均值是p1−p2 。即:
E(p1^−p2^)=p1−p2
2.如果两个样本相互独立,抽样分布的标准差:
σ(p1^−p2^)=p1q1n1+p2q2n2−−−−−−−−−−−√
3.根据中心极限定理,p1^−p2^ 的抽样分布在大样本下近似服从正太分布。
- 独立大样本情况下
p1−p2 的置信区间:
(p1^−p2^)±za/2σ(p1^−p2^)=(p1¯−p2¯)±za/2p1q1n1+p2q2n2−−−−−−−−−√≈(p1^−p2^)±za/2p1^q1^n1+p2^q2^n2−−−−−−−−−√
独立大样本情况下p1−p2 的假设检验:正太z
单侧检验 双侧检验
H0 p1−p2=0 p1−p2=0
Ha p1−p2<0 (或p1−p2>0 )p1−p2≠0
检验统计量 z z=(p1^−p2^)σ(x^1−x^2)=(p1^−p2^)p1q1n1+p2q2n2√≈(p1^−p2^)p1^q1^n1+p2^q2^n2√
拒绝域 z<−zα 或z>zα |z|>zα/2
有效大样本统计推断条件 1.两个样本独立的方式从总体中随机抽取
2样本量n1和n2 都很大(n1p^1≥15,n2p^2≥15 )。
4.4 样本量确定
- 总体均值
根据μ1−μ2 的1−α 置信水平和误差限ME 确定样本量
zα/2σ21n1+σ22n2−−−−−−−−√=ME
此时n=n1=n2 则可以得到
n=(zα/2)2(σ21+σ212)ME2
- 总体比例
根据p 的1−α 置信区间确定样本量
zα/2p1q1n1+p2q2n2−−−−−−−−−−−√=ME
此时n=n1=n2 则可以得到
n=(zα/2)2(p1q1+p2q2)ME2
4.5 总体方差:两样本
独立大样本情况下相等方差的
F 假设检验:F
单侧检验 双侧检验 H0 σ21=σ22 σ21=σ22 Ha σ21<σ22或(σ21>σ22) σ21≠σ22 检验统计量 F F=s22s21(或F=s21s22) F=较大的样本方差较小的样本方差 拒绝域 F>Fα F>Fα/2 有效大样本统计推断条件 1.被抽样的总体服从正态分布
样本随机且独立。