统计学任务2打卡

中心极限定理,

是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。它是概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。最早的中心极限定理是讨论重点,伯努利试验中,事件A出现的次数渐近于正态分布的问题。

中心极限定理在A/B测试中的应用

中心极限定理是概率论中最重要的一类定理,它支撑着和置信区间相关的T检验和假设检验的计算公式和相关理论。如果没有这个定理,之后的推导公式都是不成立的。
事实上,以上对于中心极限定理的两种解读,在不同的场景下都可以对 A/B测试的指标置信区间判定起到一定作用。
对于属于正态分布的指标数据,我们可以很快捷地对它进行下一步假设检验,并推算出对应的置信区间;而对于那些不属于正态分布的数据,根据中心极限定理,在样本容量很大时,总体参数的抽样分布是趋向于正态分布的,最终都可以依据正态分布的检验公式对它进行下一步分析。
 

 

1.某炮兵阵地对敌人的防御地段进行100次射击,每次射击中炮弹的命中数是一个随机变量,其期望为2,方差为1.69,求在100次射击中有180颗到220颗炮弹命中目标的概率。
解:设Xk表示第k次射击中的炮弹数,则E(X i)=2,D(X i)=1.69,且S 100=X 1+X 2+…+X 100,应用中心极限定理,
   
近似服从N(0,1),由题意
   
,所以:
所以在100次射击中有180颗到220颗炮弹命中目标的概率为87.64%. [4]
2.一个复杂系统由100个相互独立的元件组成,在系统运行时每个元件损坏的概率为0.1,为使系统正常工作,至少必须有85个元件工作,求系统的可靠度(正常工作的概率)。
解:以X表示100个元件中正常工作的元件数,则X~B(100,0.9),由二项分布的正态近似,
即正常工作的概率为95.25%.
2,置信区间
置信区间是指由 样本统计量所构造的总体参数的估计区间。在统计学中,一个 概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的 区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是 被测量参数的测量值的可信程度,即前面所要求的“一个概率”
置信区间的计算公式取决于所用到的统计量。置信区间是在预先确定好的显著性水平下计算出来的,显著性水平通常称为α(希腊字母alpha),如前所述,绝大多数情况会将α设为0.05。置信度为(1-α),或者100×(1-α)%。于是,如果α=0.05,那么置信度则是0.95或95%,后一种表示方式更为常用 [2]。置信区间的常用计算方法如下:
Pr(c1<=μ<=c2)=1-α
其中:α是 显著性水平(例:0.05或0.10);
Pr表示概率,是单词probablity的缩写;
100%*(1-α)或(1-α)或指置信水平(例如:95%或0.95);
表达方式:interval(c1,c2) - 置信区间
 

计算公式

 
置信区间的计算公式取决于所用到的统计量。置信区间是在预先确定好的显著性水平下计算出来的,显著性水平通常称为α(希腊字母alpha),如前所述,绝大多数情况会将α设为0.05。置信度为(1-α),或者100×(1-α)%。于是,如果α=0.05,那么置信度则是0.95或95%,后一种表示方式更为常用 [2]。置信区间的常用计算方法如下:
Pr(c1<=μ<=c2)=1-α
其中:α是 显著性水平(例:0.05或0.10);
Pr表示概率,是单词probablity的缩写;
100%*(1-α)或(1-α)或指置信水平(例如:95%或0.95);
表达方式:interval(c1,c2) - 置信区间。
 

求解步骤

 
第一步:求一个 样本的均值
第二步:计算出 抽样误差。经过实践,通常认为调查:100个样本的抽样误差为±10%;500个样本的抽样误差为±5%;1200个样本时的抽样误差为±3%。
第三步:用第一步求出的“ 样本均值”加、减第二步计算的“抽样误差”,得出置信区间的两个端点

猜你喜欢

转载自www.cnblogs.com/zhgmen/p/10658725.html