让你成为统计大师的假设检验指南

CDA数据分析师 出品

简介–思维方式的差异

当一个人MIS专业人士的身份开始了职业生涯,然后进入商业智能(BI),随后进入了商业分析,统计建模以及机器学习领域。这些转换中的每一个都会要求改变如何关于看待数据的思维方式。

但是,在所有这些过渡中都值得一提的是。当以BI专业人员的身份创建管理仪表板和报告时。因为公司内部的结构性不同,可能会需要BI团队向业务分析师(BA)团队报告。那么这个时候就是需要明白什么是业务分析以及它与BI有什么不同。

因此,作为日常工作的一部分,BI需要准备了管理仪表板并对此进行评论。将本月第一周的销售额与上个月和去年同月的销售额进行比较,以表明业务有所改善。它看起来像这样:

在在BI团队看来销售的情况比去年和上个月要好,并会为销售团队最近采取的一些新措施表示赞赏。但是当BI团队认为这是向经理展示的成果时,并不会知道,等到的结果会是什么样子的。

当BI团队拿着报告给经理看时,他会称赞销售团队,但是他会提问为什么会认为这种提升不少数据的随机变化 如果BI团队中的负责人没有统计学背景,那么将无法理解经理的含义。 可能会认为在说两种不同的语言。没有统计学背景的经理可能看到这份报告可能会直接交给高级管理人员,查阅后进行封存,而有统计学背景的经理则可能会告知在没有一个解释的情况下不要随便的得出结论。

所以在今天的文章中,将解释假设检验和读取统计意义,以区分数据中的信号和噪音–而这也是拥有统计学背景的经理想要明白的!

案例研究:

假设ABC学校的8年级学生的数学平均成绩为85。另一方面,如果我们随机选择30名学生并计算他们的平均分数,则他们的平均值为95。从这个实验中可以得出什么结论?这很简单。结论如下:

· 这30名学生与ABC学校的8年级学生不同,因此他们的平均分数更好,即,这些随机选择的30名学生样本的行为与总体(所有ABC学校的8年级学生)不同,或者这是两个不同的人群。

· 完全没有区别。结果仅是由于随机原因,即我们发现平均值是85。它可能高于/低于85,因为有些学生的平均分数小于或大于85。

我们应该如何确定哪种解释是正确的?有多种方法可以帮助你确定这一点。以下是一些选项:

1. 增加样本量

1. 测试另一个样品

1. 计算随机机会概率

前两种方法需要更多的时间和预算。因此,当时间或预算受到限制时,这两种方法是不理想的。

因此,在这种情况下,一种方便的方法是计算该样本的随机机会概率,即样本平均得分为95的概率是多少?这将帮助你从上面给出的两个假设中得出结论。

现在的问题是," 我们应该如何计算随机机会概率?"。

要回答这个问题,我们应该首先要复习一下统计学的基础知识。

统计基础

1Z值/表格/ p值: Z值是标准偏差的度量,即与平均值相差多少标准偏差。例如,z值= +1.8可以解释为观测值与平均值之间有+1.8标准偏差。P值是概率。这两个统计术语都与标准正态分布相关联。你可以查看与Z表中每个z值关联的p值。下面是计算z值的公式:

这里的X是曲线上的点,μ是总体的平均值,而σ是总体的标准偏差。

正如之前所讨论的,这些方法始终仅适用于正态分布(如上所示),而不适用于其他分布。如果人口分布不正常,我们可以采用中心极限定理。

2.中心极限定理: 这是统计学中的重要定理。在不涉及定义的情况下,我将使用一个例子进行解释。让我们看看下面的情况。在这里,我们有1000个十年级学生的数据及其总成绩的数据。以下是此总体的衍生关键指标:

而且,标记的频率分布是:

你可以回忆起这是一种分布吗?可能不会。这些分数是随机分配给所有学生的。

现在,让我们从这个群体中抽取40名学生作为一个样本。那么,我们可以从这个总体中抽取多少个样本?我们可以取25个样本(1000/40 = 25)。你能否可以说每个样本的平均分数与总体的平均分数相同(48.4)?理想情况下,是可以的,但实际上每个样本都不太可能具有相同的平均值。

在这里,我们抽取了40名学生的1000个样本(在excel中随机生成)。让我们看一下数千个样本的这些样本平均值的频率分布以及其他统计指标:

这种分布看起来是否像我们上面研究的那样?是的,该表也是正态分布的。为了更好地理解,你可以私我获取数据,在进行此练习时,你会发现以下发现的问题:

1.样本均值(1000个样本均值)非常接近总体均值

2.样本分布的标准差可以从总体标准偏差除以样本容量N的平方根得出,也称为均值标准误差。

3.样本均值的分布是正态的,与实际总体的分布无关。这称为中央极限定理。这是非常强大的。在我们的ABC学校学生的最初示例中,我们比较了样本平均值和总体平均值。准确地说,我们查看了样本均值的分布,并找出了总体均值与样本均值之间的距离。在这种情况下,你始终可以使用正态分布,而不必担心总体分布。

你可以根据上述发现计算标准差和平均值,并计算z分数和p值。在这里,随机机会概率将帮助你接受ABC 学校的例子(如上所述)中讨论的结论之一。但是,要满足CLT定理,样本大小必须足够(> = 30)。

现在,假设我们已经计算了随机机会概率。结果是40%,那么我应该得出第一个结论还是其他结论?在这里," 显著性水平 "将帮助我们做出决定。

什么是显著性水平?

我们假设样本均值95的概率为40%,这是很高的,也就是说,我们更有可能说这是由于随机性而不是由于行为差异而发生的可能性更大。

如果概率为7%,则可以毫无疑问地推断出这并非由于随机性。可能存在一些行为差异,因为概率相对较低,这意味着高概率导致接受随机性,而低概率导致行为差异。

现在,我们如何确定什么是高概率,什么是低概率?

老实说,它本质上是很主观的。在某些业务场景中,有90%被认为是高概率,而在其他场景中则可能是99%。通常,在所有领域中,一般会接受5%。此5%称为**显着性水平,也称为Alpha级别(表示为α)。这意味着如果随机机会概率小于5%,那么我们可以得出结论,两个不同人群的行为存在差异。(1-显着性水平)也称为置信水平,**即可以说我有95%的信心说它不受随机性的影响。

到目前为止,我们已经研究了检验假设的工具,无论样本均值是否不同于总体还是由于随机。现在,让我们看一下执行假设检验的步骤,并通过一个例子来介绍它。

进行假设检验的步骤是什么?

· 设置假设(零假设和备择假设): 在ABC学校的例子中,我们实际上测试了一个假设。我们正在测试的假设是样本和总体平均值之间的差异是由于随机造成的。它被称为" 零假设 “,即样本和总体之间没有差异。零假设的符号为” H0"。请记住,我们检验零假设的唯一原因是因为我们认为这是错误的。在**备择假设中,我们陈述了我们对零假设的错误看法。**对于ABC 学校的例子,备择假设是,样本和人群的行为存在显著差异。备择假设的符号为" H1"。在法庭上,由于假定被告人是无罪的(可以说这是零假设),因此,检察官有责任进行审判,以显示证据证明被告人不是无罪的。以类似的方式,我们假设零假设是正确的,这给研究人员进行研究,以证明零假设不太可能成立。

· 设置决策标准:要设置决策 标准,我们说明测试的重要程度。可能是5%,1%或0.5%。根据显著性水平,我们决定接受零假设或备择假设。可能有0.03个概率接受1%显著性水平上接受的零假设,但在5%的显著性水平上拒绝零假设。它基于业务需求。

· **计算随机概率:**随机概率/检验统计量有助于确定可能性。较高的概率具有较高的可能性,并且有足够的证据接受零假设。

· 做出决策:在这里,我们将p值与预定义的显著性水平进行比较,如果该值小于显著性水平,则拒绝零假设,否则我们接受它。在决定保留或拒绝零假设时,我们可能会出错,因为我们观察的是样本而不是整个总体。关于我们对原假设进行的决策的真实性和虚假性,有四种决策选择:1.保留零假设的决策可能是正确的。2.保留零假设的决定可能是错误的,被称为 II型错误。3.拒绝零假设的决定可能是正确的。4.拒绝零假设的决定可能是错误的,这称为I型错误

例子

肥胖患者的血糖水平平均为100,标准差为15。研究人员认为,高含量生玉米淀粉的饮食将对血糖水平产生积极影响。尝试过原始玉米淀粉饮食的36名患者的平均血糖水平为108。检验假设原始玉米淀粉有效或无效的假设。

解决方案:- 按照上述步骤测试该假设:

步骤1:陈述假设。总体平均值为100。

H0:μ= 100H1:μ> 100

步骤2:设置显著性水平。问题中没有给出它,因此我们将其假定为5%(0.05)。

步骤3:使用z分数和z表计算随机概率。

对于这组数据:z =(108-100)/(15 /√36)= 3.20

你可以通过查看z表来查看概率,与3.20相关联的p值为0.9993,即值小于108的概率为0.9993而大于或等于108的概率为(1-0.9993)= 0.0007。

步骤4:小于0.05,因此我们将拒绝零假设,即存在玉米淀粉效应。

**注意:**也可以使用称为临界值的z值来设置显著性水平。找出5%概率的z值,它的值为1.65(在任何方向上为正值或负值)。现在,我们可以将计算出的z值与临界值进行比较,以做出决策。

定向/非定向假设检验

在前面的例子中,我们的零假设是,没有差异,即均值是100,备择假设是样本均值大于100。但是,我们还可以设置备择假设,因为样本均值不等于100。当我们确实拒绝了零假设,这就很重要了,我们要使用哪个备择假设:

· 样本均值大于100

· 样本均值不等于100,即存在差异

在这里,问题是"哪个备择假设更合适?"。在某些方面,这将有助于你确定哪种备择假设合适。

· 你不希望测试样本均值小于100的样本,只想测试更大的样本值

· 你坚信生玉米淀粉的影响更大

在以上两种情况下,我们将进行" 单尾测试"。在单尾检验中,我们的替代假设大于或小于观察到的平均值,因此也称为定向假设检验。另一方面,如果你不知道测试的影响是较大还是较低,那么我们可以使用" 双尾检验",也称为非定向假设检验**。**

假设研究机构之一正在提出新的教学方法。他们想测试这种方法的影响。但是,他们不知道它会产生积极或消极的影响。在这种情况下,我们应该进行双尾检验。

在一个尾部检验中,如果样本均值是正负两个极端,则我们拒绝零假设。但是,在进行双尾检验的情况下,我们可以拒绝任何方向(正向或负向)的零假设。

看上面的图片。双尾检验分配一半的Alpha值来测试一个方向的统计显著性,另一半则用于另一方向。这意味着.025位于测试统计量分布的每个尾部。为什么我们都说0.025,因为正态分布是对称的。现在我们得出的结论是,两个尾部检验中零假设的拒绝标准为0.025,并且低于0.05,即双尾检验有更严格的标准来拒绝零假设。

例子

Templer和Tomeo(2002)报告说,1994年至1997年参加考试的学生在研究生成绩考试(GRE)通用考试的定量部分的总体平均得分为558±139(μ±σ)。假设我们选择100个参与者的样本(n = 100)。我们记录的样本平均值等于585(M = 585)。计算p值t0,检查是否将0.05的显著性水平(α= .05)保留原假设(μ= 558)。

解:

步骤1:陈述假设。人口平均数是558。

H0:μ= 558H1:μ≠558(双尾检验)

步骤2:设置显著性水平。如问题中所述,为5%(0.05)。在无方向的两尾测试中,我们将alpha值分为两半,这样上下尾部的面积比例相等。因此,两侧的显著性水平计算为:α/ 2 = 0.025。与此相关的z得分(1-0.025 = 0.975)为1.96。由于这是一个双尾检验,因此小于-1.96或大于1.96的z分数(观察到)是拒绝零假设的证据。

步骤3:计算随机概率或z得分

对于此数据集:z =(585-558)/(139 /√100)= 1.94

你可以通过查看z表来查看概率,与1.94关联的p值为0.9738,即,小于585的值的概率为0.9738而大于或等于585的概率为(1-0.9738)= 0.03

步骤4:在这里要做出决定,我们将获得的z值与临界值(+/- 1.96)进行比较。如果获得的值超过临界值,我们将拒绝原假设。此处获得的值(Z obt = 1.94)小于临界值。它不属于拒绝区域。决定是保留零假设。

结束语

在本文中,我们研究了在预测建模过程中进行假设检验的完整过程。首先,我们看了假设的概念,接着是假设的类型和验证假设的方式,以便做出明智的决定。我们还学习了重要的假设检验概念比如z值,z表格,p值,中心极限定理。

正如引言中提到的,这是我第一次读到这篇文章时最难改变的心态之一。但这也是最有帮助和意义的改变之一。我可以很容易地说,这种变化让我开始像一个预测建模者那样思考。

发布了2708 篇原创文章 · 获赞 267 · 访问量 55万+

猜你喜欢

转载自blog.csdn.net/yoggieCDA/article/details/105294577