サンプルサイズは行う(重要な場合)仮説検定の結果に影響を与えることができますか?A / Bテストの例

今日の講義は、この結論を聞く:私たちは大量のサンプルをテストしたと仮定した場合、有意水準αは少し小さすぎる設定する必要があります。

 

なぜ?私は、答えを見つけることを試みるためにオンラインに行く、合格しませんでした。それは、多くの人々がまだオンラインに絡み合っていることが判明した:我々は大量のサンプルをテストしたと仮定した場合、結果は重大生成するために非常に簡単な仮説をテストします。これは真実ではないでしょうか?サンプルサイズは悪くないのですか?

 

I :? やがて私は、この引数は意味がありません知っていたが、私は慎重にこの問題を検討しなければならなかったことはありません。この時間stackexchange収集中とほぼ全員の答えを少し知っていると書籍の多くのバージョンを含む多くの教師が、間違っていることがわかったが、ここではそれを明確にし、記録する必要があります。

 

まず、一部の人々が簡単に大規模なサンプルの仮説のテスト結果は以下の理由により、大幅な生産すると思うだろう理由:

 

銅をキャスト、表示されていることをより多くの回数、統計的検定の値の少ない量をキャスト。(から撮影した画像:https://www.zhihu.com/question/53199900?sort=created

 

 

反対派は言う:これはそれの大きなサンプルの利点を示しています。サンプルサイズが小さい場合、それは仮説検定の結果が生じた偶発する予定です可能性があります。サンプルサイズが大きいほど、より多くの我々は仮説検定の結果が正確であることを確認することができます。

 

別の理由は、以下の式に従って、例えばt検定、t値である:もしN大きなサンプルサイズ、より小さなp値が導入されるので、より大きな値tことが小さい標準偏差、 、それは、サンプルサイズが大きいほど、より多くの可能性が高い重要なことの結果を説明していませんか?

 

反対派は言う:変化量の効果場合、この文は正しいです。しかし、ケースの他の部分(α、1-β)が一定で、nは効果量が小さく、大きく、したがって、Tの値が大きくなることはありません。

 

反对者承认,在大样本的情况下,我们会检测出那些细小但有时不具有实际意义的差别。也就是说,即使假设检验的结果具有统计显著性,但是由于该结果的效应量太小,因而该结果没有什么意义。比如《A/B测试实例》这个例子,转化率从30%到33%,这个需要提升的部分就是我们希望假设检验能检测到的最小差别,以此可以计算出效应量。从样本量的计算中可以看出来,在其他部分(α,1-β)不变的情况下,效应量越小,我们需要的样本量就越大。因此,也就是说样本量越大,假设检验也就越敏感,越容易检测出细小的差别。但这并不是说我们不应该使用大样本,而是说我们对假设检验结果的解释依赖于效应量和敏感度。如果效应量很小,敏感度又很高,那么很可能结果具有统计显著性但并没有什么实际意义。

 

那么为什么大家都在争论这个问题呢?谁也说服不了谁。我觉得是因为他们都没有说清楚前提条件,以至于大家说话没在一个频道上。

 

如果我们保持效应量不变,也就是说把我们想要检测出的最小差别确定好,此外把想要达到的power也确定好,那么如果样本量大的话,统计检验量的值确实更容易被检测出显著。在这种情况下,我们应该把α调小一点,这样可以同时很好地控制第一类错误和第二类错误出现的概率。

 

回到开头说的这个结论,我问了教授,说是假设检验本身设计是没错的,但是人们经常会错误地使用它。不是说样本量大了就不好,而是样本量大了,我们应该把显著性水平α调小一点,而不是生搬硬套,一直使用α=0.05。

 

おすすめ

転載: www.cnblogs.com/HuZihu/p/12228418.html