置信度与置信区间

置信区间或称置信间距，是指在某一置信度时，总体参数所在的区域距离或区域长度。

置信度又称置信系数，置信水平、可靠度等，表明了区间估计的可靠性。用符号1-α表示。

显著性水平：代表是在一次试验中小概率事物发生的可能性大小。用符号α表示。是指估计总体参数落在某一区间时，可能犯错误的概率，

根据中心极限定理，若总体服从正态分布N(u,v)，则样本大小为n的抽样的均值 X_bar 服从N(u,v/n)，

也就是说样本均值本身也是一个随机变量，这个随机变量围绕u, 即围绕总体的均值(未知）分布，方差为v/n.

样本均值本身就具有很大的不确定性，因此如果用样本均值来估计总体的真实期望u, 除非样本大小n很大，否则准确性难以评估。

因此我们要用到置信区间。

那么是不是说某个样本算出来的置信区间一定是好的置信区间呢，当然不是，我们说他有95%的概率是好的，

好的意思是并不是说总体均值有95%概率落在该区间里面，而是说假设我们抽样无穷多次，那么95%的抽样算出来的置信区间包含真实均值（好的），另有5%的区间不包含（当然实际中置信区间没有好坏之说，只是做一个比喻）。

哪些实验结果属于那95%是随机的。因此我们自然也不确定某一次具体的抽样算出来的置信区间是否一定包含真实值，但在实际中我们接受它，认为它包含真实值，在这种情况下，我们犯错的概率仅为5%（我们认为包含但实际上不包含），我们接受这个犯错概率。换句话说，某一次抽样试验得到的置信区间犯错（不包含真实值）的概率仅为5%，符合我们预先设置的底线(显著水平，也是容许犯一类错误的底线a=5%)。这样理解可能会比简单的一句我们确定这个算出来的样本置信区间有95%的可能性包含总体均值更具体吧。一句话总结，统计充满了不确定性，不要奢望100%确定，要容许犯错的可能。

置信度与置信区间

猜你喜欢