统计学(二)：假设检验导论 (深入浅出超详解，附Python 代码)；置信区间与 Z 检验先修

在这里插入图片描述

引言

本篇博文开始前，若能熟知如下链接中的概念，将能起到事半功倍，举一反三的效果；当然，直接开始也完全没问题。

统计学： Z 分数 & 正态分布 (附 Python 实现代码) --Z 检验先修; Z 分数与正态分布两者关系; Z 分数与百分位数的异同；面试要点（以心理学实验为舟）

假设检验是一个至关重要的主题，说其贯穿了统计学也完全没有问题。

假设就是在研究中进行检验的预测，假设检验是决定基于样本研究的结果能否支持将假设推广到总体的系统程序

说白了，就是在大规模推广之前通过假设检验可以给自己希望证明或传播的东西提供一些分析支持，如海底捞希望革新其招牌菜虾滑的配方，若什么假设/实验都不做就贸然在全国门店进行推广，万一砸了那岂不是损失惨重？假设检验在很大程度上可以规避这个问题。

在这里插入图片描述

注意：该博文之所以叫导论，是因为文章所举的例子都是关于单个独立样本的研究。

假设检验的一个范例

假设检验中的研究总是跟 “显著” 这个词有关，只有我们验证的假设够显著，做这个实验才有意义。比如如下的几个场景：

如果招牌菜的新配方不能显著的提高销量，那为什么还要革新它，再多研究一下也好
常见的数据分析项目之网站 AB 测试，如果这个新的网站布局相较于旧布局来说在促进浏览量方面并未起到显著的作用，那就别换了。

笔者有过两次彩票中奖的经历，金额高达 25 人民币，众所周知：有钱人虽然有了钱，但他们没有了烦恼。所以本次探究的背景是金钱对一个人幸福指数的影响。全球统计数据显示，(这是一个总体，即大家都知道的，比如中国女性的平均身高为 1.58 米) 正常未获得大笔横财的普通成年人如笔者我(下简称成年人) 的幸福指数分布如下

正态曲线

由上图的百分比可知，幸福指数大于 4.86 + 2*2 = 8.86 的人连 2% 都不到。在所有研究幸福指数这个课题的研究者中，有一个人提出了一个想法。如果让一个成年人(非富翁)突然获得 10 万美元横财，TA就会变得非常快乐并且持续快乐6个月之久，即TA的幸福指数将会显著升高且至少持续六个月。然而，10万美元并不是一笔小数目，出于科研精神给多个样本(受试)每人10万也不现实；因此这个研究小组决定尝试另一种做法：只给一个受试10万美元。一个被随机选出的受试将会获得这笔横财，然后研究者追踪这个幸运儿6个月。

在这里插入图片描述

好了问题来了！什么样的结果会让研究者得出“如果一个成年人突然获得10万美元，TA的幸福指数将会显著升高且持续6个月之久”的结论呢？

假设检验的核心逻辑

研究者处理任何假设检验问题都会采用一种标准的方法。-- 亚瑟·阿伦《心理统计学》

还是用上述例子，首先考虑成年人的总体(就是那些没有获得横财的成年人)。在这个总体中，一个成年人的幸福指数在8.86或以上的概率小于2%。这样，幸福指数在8.86或更高的成年人就很可能不在这样的群体中。刚才这句话肯能会有点绕，以中产阶级的笔者为例，笔者的收入水平代表了一个总体，而李嘉诚这样的富豪就很可能不在笔者这个总体中。

但如果我们的研究中随机选出来的被试(给予了10万美元的成年人)的幸福感在8.86甚至以上的话又怎么样呢？
如果10万横财对成年人的幸福指数没有显著的影响，那么我们随机选择出来的被试的幸福感在8.86或以上是非常不可能的(低于2%的概率)

因此，如果在我们的研究中被试的幸福感在8.86甚至以上，那么就允许我们拒绝这个假设：突获横财对提高成年人的幸福指数有效果。如果我们拒绝了这个假设，即突获横财对提高成年人的幸福指数没有效果，那么我们就必须接受这个假设：突获横财对提高成年人的幸福指数没有效果。

一句话：咱的假设总共就两种情况：一是ok，二是不ok，拒绝了一种，就必须承认另一种。比如：

假设A：海底捞的虾滑对提高营收有显著帮助
假设B：海底捞的虾滑对提高营收没有帮助
假设C：不存在，别整些含糊不清的，能多赚钱就是多赚钱，别来什么既没有什么显著帮助又不会一点帮助都没有，商家可不会那么闲。

在这个示例中，研究者们首先明确了他们在研究者中可能会出现的问题，就是突获横财对成年人的幸福感有无影响性，预先把这个摆出来说，研究者才能继续进行他们的研究。

这种类型的检验，用你相反观点来反证，不直接进行推论，在心理学乃至整个统计学中都是推论统计的核心要点，它有些类似双重否定。而在统计学领域，你常会在文献或教材中看到统计学家们扭扭捏捏的不肯使用“接受”一词，他们大多“遮遮掩掩”的说：“综上，我们没有理由拒绝零假设。”或“所以我们有充分理由拒绝零假设。”之类的话，这一点会在本文后面的
“一些十分需要注意的术语” 这一节提到。

在这里插入图片描述

假设检验的步骤

重申有关总体的研究假设和零假设问题
决定比较分布的特征
根据比较分布上的样本临界值来决定是否应该拒绝零假设
决定比较分布上你的样本分数
决定是否拒绝零假设

步骤1：重申有关总体的研究假设和零假设

这一步往往不受人重视，但研究样本的目的是了解总体。因此，根据总体来重申这个研究问题是非常有用的。这也可以在我们误入歧途甚至头晕脑胀不记得自己最初研究的东西时给我们提供帮助。在幸福指数的例子中，我们来考虑成年人的两个总体。

总体1：突然获得10万美元的成年人(TA 本来并不是一个富翁)
总体2：一般的成年人如笔者我(即没有获得10万美元的成年人)

在我们的例子中，我们利用仅有一个幸运的成年人的单个样本得出了一个结论，就是处于总体1的成年人的幸福指数。总体2是已经了解了的一般的成年人，它作为一种对照的基准。

研究假设 假设检验中对两个总体之间关系进行预测的陈述(通常是对总体平均数之间差异的预测)

零假设 总体之间关系的陈述，是研究假设的对立假设，它描述的是总体之间没有差异(或者是同预测存在相反的差异)；这一人为假设的建立是为了检测其作为建设检验的一部分是否会被拒绝

研究假设&零假设这两个概念折磨了不少学习统计学的人。在查阅大量资料与书籍后，笔者发现如下几种解释方式很可能会使概念变得通透。

在这里插入图片描述

首先来看顺序的问题，笔者喜欢把研究假设(也可成为备择假设，即备用的选择)放在零假设前，毕竟我们研究什么问题就把什么放在前(许多统计学书籍和教材都是马上就把零假设先搬出来)。如我提出的假设是新配方能促进销量，而我希望对其进行进一步的研究，组合起来刚好就是研究假设这个专有名词；而我们先前提到，假设的结果无非就两种，别整那些含糊不清的东西，与研究假设对立的假设也就呼之欲出。研究假设也可以理解为我们希望为真的事情，即等着我们去证明它。

零假设为什么叫零假设？“零”表示没有差异或差异不显著。在收集数据前，零假设为真(这也对应了我们前面提到的双重否定意味，使用迂回的方式来证明自己研究的假设：证明与我假设相反的假设是不成立的，那我的就是成立的)。至于为什么要迂回，是因为我们对研究假设的总体参数(用来描述总体的数值概要)并不十分清晰，只能借助已有的总体参数来进行检验。

两个假设的关系：他们是完全对立的，我们采取这种迂回的方法来看是否我们可以拒绝零假设，以至于我们能够决定选择它的对立假设(研究假设)。有点累，休息一下

在这里插入图片描述

步骤2：决定比较分布的特征

比较分布 就是在零假设为真的条件下，表示总体情况的分布。

回顾一下假设检验的全面逻辑，我们需要如果零假设为真的话，情形将变成什么样。再来看看正常成年人幸福指数的分布图吧。

正态曲线

如果零假设是真的话，总体1和总体2就一样；意味着总体1和总体2的分布图一样，均值 mu=4.86，标准差 sigma=2.00。如果我们的样本是来自于零假设为真这一分布的总体，则意味着我们希望研究的假设(研究假设)是不成立的。也就是说，在假设检验过程中，你把实际的样本分数同比较分布相比较。

一句话：比较分布可直接看成零假设的分布。

步骤3：根据比较分布上的样本临界值来决定是否该拒绝零假设

现在就缺一个指标来判定是否拒绝零假设了！理想情况下，在进行一个研究之前，研究者会设置一个与他们的结果相比较的指标：他们需要多大的分数(分数的概念见统计学(一))才能拒绝零假设，就是说，这个样本分数究竟需要多极端以至于零假设为真的条件下不可能得到该极端分数。这就是临界值(也称为临界点)。

临界值 假设检验中的一种分数，在比较分布上显示，如果样本分数达到或超过这个值，你就拒绝零假设。也称作临界点

当需要拒绝零假设的时候，我们要预先设置一个极端的样本分数，这时研究者就用到Z分数和百分比。在我们的横财幸福曲线的例子中，研究者可能决定如果结果高于98%(即顶端贼幸福的2%)，他们就拒绝零假设，正态曲线顶端的2%则意味着Z分数为**+2**或者更高。

假设研究者想要更加谨慎的拒绝零假设，他们可能拒绝零假设仅仅当他们得到的结果发生的概率为1%或者更低。这时候他们可以接着计算出以1%为Z分数的临界值，利用正态曲线表，得出正态曲线上的分数低于1%。

在这里插入图片描述

步骤4：决定比较分布上你的样本分数

这一步就比较简单了，有了上一节的Z分数的基础，我们只需要从研究中得出样本的实际结果。一旦是从样本中得出结果，我们就要根据比较分布上的总体平均数和标准差计算得出样本原始分数的Z分数。原始分数：一般分数(或者分布中被转换为Z分数或任意转换之前的分数)。

在这个例子中，比较分布不变，只有一个成年人的样本中，这个得到横财后生活了6个月(这就是研究者提出的假设中包含的信息)的成年人的原始分数为7.43。根据 z 分数的计算公式

在这里插入图片描述

可得样本的z分数为：1.285，再查一下正态曲线的z分数表(表太大就不附上了，上一篇博文有)，得要想达到顶端的1%，z分数至少得为2.33。

步骤5：决定是否拒绝零假设

终于来到了最后一步了。为了决定是够拒绝零假设，我们需要把实际的样本Z分数(步骤4得出)和临界Z分数(步骤3得出)相比较。我们的例子如下图

在这里插入图片描述

由于样本Z分数小于临界Z分数，所以作为研究者，我们决定拒绝零假设。

一些十分需要注意的术语

在面试/工作对话/报告/文献中，用对与假设检验有关的专业术语是非常有必要的。

当你拒绝零假设的时候，所有你陈述内容的结果都要支持研究假设。你不能说这个结果证实了研究假设或者是这个结果显示了研究假设为真。“证实”和“真”这样的词太强烈，因为实验研究的结果是建立在可能性的基础上。
当一个结果不够极端来拒绝零假设时，你不能够说这个结果支持了零假设，你仅仅能说这个结果不具有统计显著性。
一个结果强度不足以拒绝零假设就意味着这个结果是无效的。这个结果拒绝零假设可能不够极端，但是零假设可能依旧是错的(且研究假设为真)。假设在我们的例子中突获横财对提升幸福指数的效果仅有一点点但确实是有的。在那种情况下，我们可能找到一个获得了这笔钱的正常成年人的幸福指数比一般成年人高了许多。因此，即是它是错误的，我们也不能够拒绝零假设。(深入的讨论将在以后的博文中呈现)一句话：你随机抽到的样本可能本来幸福指数就较高，所以实验结果一定要非常极端才可以拒绝零假设。
显示零假设是真的就意味着两个总体之间绝对没有差异。但总体之间总是存在差异，只不过这种差异过小以至于某一研究难以检测到。

如果研究使用了大样本和精确的测量程序，建立起来的数据可能更能支持零假设的某些方面————在总体之间有非常小的差异。(未来的博文会呈现)

休息一下再往下看吧，只剩15%

在这里插入图片描述

单侧假设检验和双侧假设检验

定向假设 预测总体之间的差异有一个特定方向的研究假设(如：预测研究样本的平均数比一般总体的高)

单侧检验 对定向假设进行假设检验的程序；比较分布(可通俗的理解成零假设)拒绝零假设的情形所在的区域全都在分布的一边。

不定向假设的概念就不用多说了。为了研究不定向假设，我们不得不考虑在比较分布上任一边样本极端的可能性。因此，这就叫双侧检验。

双侧检验的林洁仔需要我们划分两侧之间的显著百分率。例如，显著性水平为5%，除非在比较分布的顶端2.5%或者底端2.5%，如此极端的情况下才能拒绝零假设。这样就保证了总体上的显著性水平为5%。

一句话：双侧检验的临界值等于同等条件下单侧检验的临界值÷2，并把它划分在两边。

**什么时候使用双侧检验?**原则上，当我们有一个清晰的定向假设时，就要准备使用单侧检验，且若我们有一个清楚的非定向假设时就要准备使用双侧检验。看起来非常简单，就是根据自己的假设情况来进行选择，实践中，决定并不这么简单。毕竟有时候得出的结论可能会与自己的期望完全相反如突获横财的六个月后幸福指数急剧下降到令人痛苦不堪的程度。通过单侧检验，我们冒着不得不忽视一些可能重要结果的风险。

为了安全起见，许多研究者在定向和非定向假设中都采用双侧检验。所以当现实需求中出现：探究xx是怎样影响xx的，那就绝对双侧无疑。

恭喜你坚持看到了最后，来试试模拟问答吧，检验并复习一下学习成果

在这里插入图片描述

模拟问答

什么是假设检验？
研究假设和零假设的含义
几句话描述一下假设检验的步骤
什么叫比较分布
临界值是什么意思？
单双侧检验有何异同
临界值的选择有什么要求或技巧吗？

后记

往期精彩回顾

数据分析，商业实践，数据可视化，网络爬虫，统计学，Excel，Word, 社会心理学，认知心理学，行为科学，民族意志学各种专栏后续疯狂补充

欢迎评论与私信交流！

在这里插入图片描述

萝卜

发布了51 篇原创文章 · 获赞 29 · 访问量 8957

私信关注