本文介绍置信区间 Confidence interval,CI的自举法计算及其意义。
目录
自举法计算置信区间
置信区间(Confidence interval,CI)比较容易理解的计算方法为自举法(Bootstrap)。
-
自举法获取样本均值
以估算一组雌鼠的体重为例快速熟悉下自举法。
为了估算一组雌性小鼠(很多很多只~~不可能每一只都称量到)的体重,可通过计算12只雌性小鼠(上图红圈)样本均值,利用自举法确定一个均值范围以代表一组雌性老鼠的总体均值。
自举法实现分三步如上图:
- 第一步、从上述12个样本中随机且有放回地抽取(允许重复)12只小鼠,可以看到有的小鼠被抽了多次,有的未被抽到;
- 第二步、计算第一步12只小鼠体重均值;
- 第三步、重复第一步和第二步,直到我们得到足够多的均值(大于10000个)。
-
计算置信区间
经常听到的95%置信区间(当然还有其它的置信区间,这里以95%为例)就是覆盖95%的均值(上文自举法获取的均值)的区间,上图黑色划线部分即是95%置信区间。
置信区间存在意义
-
作用一:同一组样本划定可以估计总体的区间
上图中每个红色竖线是对所有雌鼠“真实”均值(真实被引住说明无法测量,只能通过抽样推测)的估计,置信区间的作用一在于说明落在该区域的均值能够用来对所有雌鼠“真实”均值进行估计。
95%的置信区间外的任何均值发生的概率都小于5%,是P值都小于0.05的小概率事件,与置信区间呈显著差异,不能用来对所有雌鼠“真实”均值进行估计。
-
作用二:两组样本差异直接比较
上图雌雄性老鼠样本的95%置信区间无重叠,在统计学上有显著差异,只用根据雌雄鼠的置信区间有无重叠即可判定两组鼠是否体重有差异。
但是,当两组置信区间有部分重叠时,差异性需要借助t检验了。