Nature子刊编辑部最新发布，事关统计报告的书写和P值

小编阅读了一篇《Nature human behaviour》编辑部于前几天发表的一篇文章 [1]，内容与统计报告的书写以及P值有关，对于各位读者可能有帮助，它的中文译文如下：

摘要

此杂志社发表的大多数实证性文章使用零假设显著性检验（NHST）。在大多数情况下，研究人员依赖P值来确定研究结果的科学或实践意义。然而，统计学显著性单独所能提供的信息非常有限，对于推断这些科学或政策的意义其实用处不大。因此，除了P值之外，我们杂志社要求作者提供其他更多的信息 - 在这篇社论中，我们将解释此杂志社的要求。

正文

在过去的十年中，统计显著性和P值引起了很多讨论。2016年，美国统计协会发表了有关P值的声明，旨在消除与其有关的一些应用和结果解释上的误解。尽管目前对P值的误用有了更多的关注，但根据向我们杂志社投稿的研究论文可以了解到，美国统计协会声明想要消除的误解其实仍然存在。

在我们杂志社收到的大多数使用NHST的实证研究中，作者们只报告了统计检验方法、自由度、检验值和P值。甚至在某些情况下，作者只汇报P值，而并不包含其他信息。这种极其有限的信息可能会产生误导性的结果，再者，在样本量非常大的研究中甚至是没有意义的（因为在样本量非常大的研究中，即使效应很小，也可以呈统计学显著性）。因此，我们要求作者还需汇报效应量以及置信区间。NHST的统计报告通常应采用以下形式：统计量（自由度）=值；P=值；效应量=值；置信区间=值。

P< 0.05通常用于判断是否存在统计学显著性，它是传统的经验法则，本质上是武断的。但是，如果作者选择使用NHST，我们要求他们遵守这个传统（除非他们预先设定了不同的α水平，并提供了充分的理由支持他们的选择）。对于大于0.05的P值，比如“微弱显著性”和“刚刚没达到统计学显著性”等类似的陈述，再伴随着一些理论上的解释，似乎想要说明零假设已被拒绝，而这种做法是具有误导性的。如果p>0.05或大于预先指定的阈值，那么这些P值就指代不存在统计学显著性，我们要求作者不做修改的如实报道结果。

我们在提交的稿件中遇到的最常见的问题之一是关于不同研究或不同条件之间差异的统计推断，在这些研究中，作者们比较了统计学显著性的水平，而并没有使用正式的统计学检验去比较差异的本身。在2006年的一篇文章中，对于阐述为什么“显著性和非显著性之间的差异本身并不具有统计学显著性”这个问题，Gelman和Stern提供了令人信服的解释。使用显著性水平比较效应估计值是不恰当的，我们要求作者给出差异存在的统计学证据。

如果作者进行多重比较，我们希望他们可以使用适合其数据和多重比较的数量的校正方法（例如：Bonferroni，Benjamini-Hochberg，family-wise error rate or false-discovery rate）。这种校正是统计分析必不可少的一部分，并且，所有结果的解释都应基于校正的P值。

我们根据研究问题的重要性、是否对于交叉学科人员来说有价值以及证据的实质性这三个因素从而确定是否选择外审和发表，而不是基于研究结果。这意味着我们会发表主要结果为阴性的研究。对于阴性结果的研究，我们要求作者不要将缺乏证据作为否定某个事物存在的证据。到目前为止，没有统计检验可以证明不存在某个效应。像“X和Y之间没有关联”或“X对Y没有影响”这样的陈述是不准确的，最好修改为“[没有或很少]可信的X和Y之间的关联证据”或“[没有或很少]可信的X影响Y的证据”。

无论主要或者次要结果是否为阴性，如果在文章中对其进行了解释，我们要求作者使用适当的统计方法进行解释（例如，Bayes因子或等效性检验）。

无论研究结果的方向如何，统计功效对于所有研究来说都是至关重要的。统计功效不足的阴性结果是无法进行解释的。如果研究人员没有使用正式的统计方法来预先确定样本大小，并且他们的主要结果为阴性，那么我们会要求他们进行统计功效敏感性分析。在这些分析中，需展示一系列可能的效应量（包含最小的理论上或实践上有意义的效应量）以及它们所对应的统计检验的功效。

目前有许多人呼吁停用统计学显著性或完全放弃NHST。但在这之前，我们需要确保使用NHST的已发表研究做出了有效的统计推断，并且有恰当的解释。

Nature Human Behaviour volume 7, pages293–294 (2023)

Nature子刊编辑部最新发布，事关统计报告的书写和P值

猜你喜欢