Edward Teller, the famous Hungarian-American physicist, once quoted:
“A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that no one wants to believe. It is guilty, until found effective.”
假设检验的应用在数据科学中占主导地位。必须简化和解构它。就像犯罪小说的故事一样,基于数据的假设检验将我们从一个新颖的建议 引导 到一个 有效的命题。
一、概念
假设起源于希腊工作 hupo (下)和 论文(放置)。这意味着有限的证据所产生的想法。这是进一步调查的起点。
这个概念既简单又强大。我们每天直观地进行假设检验。这是一个7个步骤:
- 做出假设。
- 选择原假设。
- 确定备择假设。
- 设置可接受条件
- 基于测试集进行事实调查。
- 评估结果。评估是否支持原假设?我们是否能够相信结果不是偶然的?
- 达到以下结论之一:拒绝原假设以接受备择假设或拒绝备择假设。
二、处理
让我举一个讲解假设检验概念的故事。 霍尔马维克 是冰岛西部的一个小镇。这个小镇有其独特之处。它以巫术博物馆而闻名 。
即使是现在,西峡湾区也有人声称自己是巫师。Isildur和Gandalf就是这样的人。Isildur和Gandalf声称是巫师。他们声称是Clairvoyant。统计学家想要证明或反驳这一主张。他们玩 Clairvoyant纸牌游戏。
游戏规则如下:
- Isildur和Gandalf与一组扑克牌随机选择的十张牌相反,并询问四张牌中的哪一张适合它。
- 他们必须确定卡所属的。
- 对于它们中的每一个,该测试重复十次。
还确定对于正常人来说,预测正确的平均次数是大约6. 这是我们将进行假设检验的基础。我们将统计确定它们是否是向导。
第1步:做出假设
不同类型的假设检验做出不同的假设。假设与数据分布,采样和线性有关。一些常见的假设是:
- 分布: 数据满足特定分布。了解数据的基本模式。许多自然发生的数据点的分布,例如股票市场数据,人体重量和高度,在酒吧喝酒的人的工资等,可以通过正态分布来近似 。 正态分布只是意味着很多观察都在中间。较少的观察值大于或小于中间值。中间值也称为 中位数。
- 采样: 假设随机选择为测试采样的数据。没有偏差。
对于透视纸牌游戏,以下假设是正确的:
- 在透视卡片游戏中,所选卡片的分发将是正常分发的。这是真的,因为卡是随机选择的。卡的随机选择意味着将被挑选的十张卡中的每一张都具有被选择用于测试的相等概率。
- 有问题的卡片没有偏差。
第2步:NULL假设(Ho)
H0为原假设。这是现状。该原假设被拒绝或未被拒绝。这是需要验证和测试的。
对于透视卡片游戏,NULL假设如下:
- H0:Isildur / Gandalf不是透视者。
他只是在猜测。他是幸运的。
第3步:备择假设(Ha)
替代假设是与NULL假设相反的位置。如果有统计学上显着的证据表明备用假设是有效的,则拒绝NULL假设。
对于透视卡片游戏,替代假设如下:
- Ha:Isildur / Gandalf是一个透视者。
第4步:设置验收标准
定义了NULL和备用假设。现状是NULL假设。现在,需要设置一个阈值。我们知道一个普通的个体,即不是巫师的人会在10次中得到正确的六次。如果Isildur和Gandalf可以在测试中预测超过六张正确的牌,那么有更多的证据表明他们可能确实是巫师。 称为t-统计量的度量 计算估计值与假设值的距离。高t统计使得替代假设看起来越来越合理。
假设检验结果可能出错。有四种可能的情况:
- 测试发现Isildur / Gandalf是一个透视者。他是一个透视者。
- 测试发现Isildur / Gandalf不是透视者。他不是一个透视者。
- 测试发现Isildur / Gandalf是一个透视者。他不是一个透视者。
- 测试发现Isildur / Gandalf不是透视者。他是一个透视者。
测试击中靶心的结果1和2是正确的。测试失败了结果3和4。
- 当结果为真时,结果3拒绝NULL假设。这是 假正。 此错误也称为 类型I错误。(取伪错误)
- 当结果为假时,结果3接受NULL假设。这是 假负。 此错误也称为 类型II错误。(弃真错误)
像所有统计测试一样,假设检验必须处理不确定性。它必须处理概率。没有绝对的。
需要设置概率水平,以便建立I类错误发生的可能性。该级别称为 显着性级别。的 阿尔法(α) 表示它。较低的α意味着测试非常严格。相对较高的α意味着测试不是那么严格。α的值基于假设检验的性质来设定。典型值为0.001,0.05或0.1
如果观察到的价值仅仅是机会怎么办?如果只是巧合怎么办?如果他们在进行测试的当天幸运的话怎么办?需要减轻这种不确定性。假设检验有一个衡量这种不确定性的指标。 p值 是该指标。
的 p值 被表示为概率。这意味着它的值在0和1之间.p值是在假设NULL假设为真的情况下偶然观察到的t统计量的概率。
对于透视卡牌游戏,我们决定如果Isildur能够正确猜出超过 8张牌 ,那么替代假设似乎是合情合理的。他可能确实是一个透视者。 统计数据为8。
作为一个透视者并没有生命危险。没有人处于危险之中。显着性水平设定为0.05。 α是0.05。
第5步:进行测试
行动发生了。统计学家测试了伊西尔德和甘道夫的洞察力。卡片显示。做出了预测。结果被注意到。该过程重复十次。统计引擎在收集的数据上运行。结果如下:
埃西铎:
- t统计:8
- p值:0.1
-Gandalf:
- t统计:9
- p值:0.01
第6步:评估结果
概率(p值)和显着性水平之间的比较产生以下结果:
对于Isildur:
- t统计数据为8.这意味着,他平均预测了8张牌。它高于正常人的预测值。
- p值为0.1。这意味着观察到的t统计量由偶然性造成的概率为10%。p值很高。
- 设定显着性水平(α)为0.05。它转化为5%。
- p值大于设定的显着性水平,即10%> 5%。
甘道夫:
- 统计数据为9.这意味着他平均预测了9张牌。它高于正常人的预测值。
- p值为0.01。这意味着观察到的t统计量由偶然性造成的概率仅为1%。
- 设定显着性水平(α)为0.05。它转化为5%。
- p值低于设定的显着性水平,即1%<5%。
第7步:结束
测试结束了。指标是已知的。谁是真正的巫师?
对于Isildur: p值大于设定的显着性水平(10%> 5%)。尽管如此,他平均预测了八张牌; 统计上,结论如下:
- Isildur的结论:没有实质性证据反对NULL假设。NULL假设未被拒绝。
对于甘道夫: 平均而言,他已经正确地预测了九张牌。p值低于设定的显着性水平(1%<5%)。
- Gandalf的结论:有充分的证据反对NULL假设。NULL假设被拒绝。替代假设被接受。
Isildur是毁灭性的。甘道夫很高兴。然而,Isildur可能会因为没有证明他不是透视而得到安慰。NULL假设未被拒绝。这并不意味着替代假设不正确。它只意味着没有足够的证据来拒绝NULL假设。Isildur的现状普遍存在。
结论
没有必要进行假设检验,以找出Isildur和Gandalf中的巫师。我们都知道甘道夫是巫师。
假设检验是机器学习的基石概念之一。许多评估方法使用假设检验来评估模型的稳健性。 在我们浏览本系列文章时,我们将 深入探讨其构造。