引言

小伙伴们，今天我们要来聊聊置信区间和p值这两个看起来超级相关的概念。咱们先来说说置信区间，它是一种区间估计，相当于给你的样本数据画了一个“框框”，告诉你总体数据的真实值很可能在这个框框里。就好像你买了一个锅，看到商家说这锅有保修期为一年，那么你就知道这锅能用至少一年，但也有可能用到更长时间。置信区间就是统计学里的“保修期”，让你更准确地了解总体数据的真实情况。

然后是p值，它是假设检验的核心结果。简单来说，它是告诉你这个数据和你假设的结果是否匹配的东西。就像你约了个网友见面，结果发现长得和头像差远了，你就会开始怀疑这个人是不是骗子了。p值也是这个意思，当它小于一个预设的值（通常是0.05），就意味着你的数据和你的假设非常不匹配，很可能存在别的问题。

置信区间和p值之间有着千丝万缕的联系。有时候通过看置信区间的范围，我们也能得出和p值相同的结论。就像你买了一个牌子的衣服10来件，试了试发现比预期的都大了一号，那么你就可以推断这个品牌的衣服都偏大。置信区间也是这个道理，当它的范围很窄的时候，就说明数据很准确，也就意味着你的假设是可信的，与此同时p值也会非常小，这就说明数据和假设非常匹配，很难出现偏差。

单个样本与总体比较

统计学允许，我们通过猜测和验证的方式来探索事物的真相。而在猜想的世界里，我们经常需要进行一些“假设检验”的操作。

比如说，某个学校想要知道自己的初中女生平均身高是否和全市水平相同。这时候我们就需要假设一个值，比如说156.7cm，然后通过测量学校的30名女生身高来验证这个假设。

如果发现学校女生平均身高与全市水平相同，那么我们就可以高高兴兴地说“原来我们学校女生真的和市里的女生一样高啊！”，如果不同，那么我们就要面对“学校女生身高与市里不同”的残酷事实。

不过，别担心，我们还有一个非常重要的工具——置信区间，可以帮助我们更加准确地判断事物的真相。而计算置信区间的公式就是：“XXOOXXOO”。（这是我在开玩笑，实际上我知道计算置信区间的公式是：样本平均数±（t值×标准误））

计算出95%置信区间（144.25，168.67），观察到这个区间包括了一开始的假设值（μ），156.7cm。

在双向假设检验中，我们首先根据下面的公式计算统计量：

然后再将得到的t值与t分布比较，得到p值=0.83，没有统计差异。

通过交换分母项你可以发现这两个公式本质就是一回事。从统计的角度，解释了为什么我们可以用置信区间和假设检验得到同样的结论。（注意：这个等价关系只在双边检验（即判断“是否等于”）中存在，单边假设检验只能与不大常见的“单侧置信区间”做比较，此处不赘述。实际计算中，有时用正态分布Z值取代公式中的t值）

两个独立样本检验

在两个独立样本的比较检验中置信区间和有什么不同呢？

先看一个例子：

有个药物，判断服用药物是否会造成ALT水平变化。50位患者随机分配到实验组，另外50位患者接受安慰剂（对照组）。试验结束后，获得数据如下：

从图表可以看出，尽管实验组和对照组ALT的置信区间有重叠，假设检验的结果却是存在显著统计差异（p<0.05）。这是因为两个独立样本分析时，计算置信区间和假设检验数据的方法不再相同。简单来说，计算实验组和对照组各自的95%置信区间用的是各自的标准误，0.04，1.04这里就是把差值当样本计算置信区间，公式和上文单组分析一样：

于是假设检验时，用的是两组合并（pooled ）的标准误，并且自由度也因两组合并而变大。因此，95%可信区间和p<0.05并不等价。仅仅看两组各自的置信区间，我们得出的结论却不一定和假设检验相同。

公式：

把t和标准t分布去比得到p。

在这个ALT的数据中，尽管p<0.05，从两组的差异来看，ALT水平的绝对差异并不是很大（∆=0.54），是否具有临床意义值得讨论。所以，仅仅因为p<0.05，就得出药物造成显著副作用的结论，未免有些操之过急。对于这样的结果，建议：同时报告p值和置信区间的结果，并且对可能造成结果不一致的原因（譬如绝对差异较小）进行讨论。在文献中读到这样的结果，也要保持警觉，看看结论是否片面。

总结

置信区间和p两者虽然非常常见，是统计依赖的科研（医学、心理学、社会学、经济学等虚头八脑的可惜）的基石，但也是被忽视的。

最后我用一个极端思维，概括两者不同：

一个抗高血压药物让100个病人每个人都降低了0.5个毫米汞柱的血压，在这个前后对照实验中，请问有显著治疗意义吗？脚趾头想想都知道，当然有，而且很显著！但是前后两个独立样本均值差别0.5正负tA/2个标准差/自由度，想想都是重合的！所以你得到截然相反的两个结论。

统计学基础：置信区间和p值知识

引言

单个样本与总体比较

两个独立样本检验

总结

猜你喜欢