样本量大小会影响假设检验的结果（是否显著）吗？ A/B测试实例

今天听课听到这样一个结论：如果假设检验的样本量很大，那么显著性水平α应该设得小一点。

为什么呢？我没想通，于是去网上试图查找答案。结果发现网上很多人还在纠结：如果假设检验的样本量很大，那么会使假设检验的结果非常容易产生显著性。这是不是真的？样本量太大是不是不好？

我：？？？很久之前我就知道这种说法没有道理，但是我从来没有仔细去研究过这个问题。这次在知乎和stackexchange上搜罗了一下大家的回答，发现很多老师包括很多书上的说法都是错误的，在这里有必要澄清和记录一下。

首先，有些人之所以认为大样本会使假设检验结果更容易产生显著性，理由如下：

投铜板，投的次数越多，某个统计检验量的值出现的可能性越小。（图片摘自：https://www.zhihu.com/question/53199900?sort=created）

反对者说：这正说明了大样本的好处呀。如果样本量小，那么很可能假设检验的结果是由于偶然的原因导致的。样本量越大，我们越可以肯定假设检验的结果是准确的。

还有一种理由是这样的，以t检验为例，根据t值的计算公式：，如果样本量n越大，标准误差就越小，这样t值就越大，也就可以推出p值越小，这不就说明样本量越大，结果越容易显著吗？

反对者说：如果效应量不变，那么这种说法是正确的。但是，在其他部分（α，1-β）不变的情况下，n越大，效应量越小，因此t值并不会因此变大。

反对者承认，在大样本的情况下，我们会检测出那些细小但有时不具有实际意义的差别。也就是说，即使假设检验的结果具有统计显著性，但是由于该结果的效应量太小，因而该结果没有什么意义。比如《A/B测试实例》这个例子，转化率从30%到33%，这个需要提升的部分就是我们希望假设检验能检测到的最小差别，以此可以计算出效应量。从样本量的计算中可以看出来，在其他部分（α，1-β）不变的情况下，效应量越小，我们需要的样本量就越大。因此，也就是说样本量越大，假设检验也就越敏感，越容易检测出细小的差别。但这并不是说我们不应该使用大样本，而是说我们对假设检验结果的解释依赖于效应量和敏感度。如果效应量很小，敏感度又很高，那么很可能结果具有统计显著性但并没有什么实际意义。

那么为什么大家都在争论这个问题呢？谁也说服不了谁。我觉得是因为他们都没有说清楚前提条件，以至于大家说话没在一个频道上。

如果我们保持效应量不变，也就是说把我们想要检测出的最小差别确定好，此外把想要达到的power也确定好，那么如果样本量大的话，统计检验量的值确实更容易被检测出显著。在这种情况下，我们应该把α调小一点，这样可以同时很好地控制第一类错误和第二类错误出现的概率。

回到开头说的这个结论，我问了教授，说是假设检验本身设计是没错的，但是人们经常会错误地使用它。不是说样本量大了就不好，而是样本量大了，我们应该把显著性水平α调小一点，而不是生搬硬套，一直使用α=0.05。

样本量大小会影响假设检验的结果（是否显著）吗？ A/B测试实例

猜你喜欢