样本量大小会影响假设检验的结果(是否显著)吗? A/B测试实例

今天听课听到这样一个结论:如果假设检验的样本量很大,那么显著性水平α应该设得小一点。

为什么呢?我没想通,于是去网上试图查找答案。结果发现网上很多人还在纠结:如果假设检验的样本量很大,那么会使假设检验的结果非常容易产生显著性。这是不是真的?样本量太大是不是不好?

我:??? 很久之前我就知道这种说法没有道理,但是我从来没有仔细去研究过这个问题。这次在知乎和stackexchange上搜罗了一下大家的回答,发现很多老师包括很多书上的说法都是错误的,在这里有必要澄清和记录一下。

首先,有些人之所以认为大样本会使假设检验结果更容易产生显著性,理由如下:

投铜板,投的次数越多,某个统计检验量的值出现的可能性越小。(图片摘自:https://www.zhihu.com/question/53199900?sort=created

反对者说:这正说明了大样本的好处呀。如果样本量小,那么很可能假设检验的结果是由于偶然的原因导致的。样本量越大,我们越可以肯定假设检验的结果是准确的。

还有一种理由是这样的,以t检验为例,根据t值的计算公式:,如果样本量n越大,标准误差就越小,这样t值就越大,也就可以推出p值越小,这不就说明样本量越大,结果越容易显著吗?

反对者说:如果效应量不变,那么这种说法是正确的。但是,在其他部分(α,1-β)不变的情况下,n越大,效应量越小,因此t值并不会因此变大。

反对者承认,在大样本的情况下,我们会检测出那些细小但有时不具有实际意义的差别。也就是说,即使假设检验的结果具有统计显著性,但是由于该结果的效应量太小,因而该结果没有什么意义。比如《A/B测试实例》这个例子,转化率从30%到33%,这个需要提升的部分就是我们希望假设检验能检测到的最小差别,以此可以计算出效应量。从样本量的计算中可以看出来,在其他部分(α,1-β)不变的情况下,效应量越小,我们需要的样本量就越大。因此,也就是说样本量越大,假设检验也就越敏感,越容易检测出细小的差别。但这并不是说我们不应该使用大样本,而是说我们对假设检验结果的解释依赖于效应量和敏感度。如果效应量很小,敏感度又很高,那么很可能结果具有统计显著性但并没有什么实际意义。

那么为什么大家都在争论这个问题呢?谁也说服不了谁。我觉得是因为他们都没有说清楚前提条件,以至于大家说话没在一个频道上。

如果我们保持效应量不变,也就是说把我们想要检测出的最小差别确定好,此外把想要达到的power也确定好,那么如果样本量大的话,统计检验量的值确实更容易被检测出显著。在这种情况下,我们应该把α调小一点,这样可以同时很好地控制第一类错误和第二类错误出现的概率。

回到开头说的这个结论,我问了教授,说是假设检验本身设计是没错的,但是人们经常会错误地使用它。不是说样本量大了就不好,而是样本量大了,我们应该把显著性水平α调小一点,而不是生搬硬套,一直使用α=0.05。

猜你喜欢

转载自www.cnblogs.com/HuZihu/p/12228418.html