Udacity课程脉络-统计学基础(一)

前言

想了解一些机器学习基础,但对于一个零基础的人而言,只好从最基础的数据统计看起。发现优达学城的课程非常不错,为了巩固所学计划整理一下课程的脉络以及关键知识点,便于回顾。

描述统计学入门

Intro to Inferential Statistics(推论统计学)

这篇文章的归纳的知识点如下

  • 中心极限定理(抽样分布)
  • 置信区间
  • 假设检验与显著性水平(临界区域)
  • 单尾检验 & 双尾检验
  • I型错误和II型错误

中心极限定理(抽样分布):

对于均值分布,其中每个均值都是样本量为 n 的均值,该分布的标准偏差就等于总体标准偏差除以平方根 n,这就叫做中心极限定理,数学公式表达为

M = ( X1 + X2 + … + Xn ) / n
M ~ N(μ,σ²/n)

中心极限定理适用于任何总体,总体可以是任何形状。

假设我们从中抽取一个样本并计算出均值,然后再抽取出一个样本并计算出均值,持续这么操作。

如果画出均值分布图的话,形状会是相对正态的,其中标准偏差等于总体标准偏差除以样本量的平方根叫做SE即标准误差。

如下图所示:
中心极限定理1

中心极限定理2

置信区间

可以结合知乎上这个问题的第一个回答来理解(关于人类身高的栗子)
如何理解 95% 置信区间

置信区间展现的是参数的真实值(μ)有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度。

注意:下图是一个抽样分布,根据中心极限定理,样本均值M服从如下正态分布:

M ~ N(μ, σ²/n)

注:总体的μ未知,σ和n已知

置信区间

假设检验与显著性水平(临界区域)

某个样本的均值位于任何一个临界区,表示不太可能发生,如果位于绿色区域,即最小的临界区,我们将报告最小的α水平。因为这表明样本统计数据与总体参数非常不同,因此证明很有可能采取了任何形式的人为处理措施。

下图中z=1.82,我们可以说在比例小于0.05时具有统计显著意义。因为1.82位于红色区域的某个位置,表明获得这个样本均值的概率小于0.05,但并不小于0.01,所以它仅在比例小于0.05时具有统计显著意义。

这基本上就是假设检验的思路。

显著性水平与临界区域

单尾检验 & 双尾检验

双尾-单尾

假设检验

在进行统计检验时,我们自己设定判断条件,即我们自己选择一个α水平,然后规定如果获得特定样本均值的概率小于该α水平,那么就证明有效。通常会选择α水平0.05,在单尾检验和双尾检验两种情形下都存在两种可能的结果,样本均值要么位于临界区之外,要么位于临界区之内,我们将这两种结果成为零假设,并用H0(零假设)或Ha(对立假设)来表示。

H0 (null hyphothesis)
Ha (alternative hyphothesis)

H0-Ha

零假设认为当前总体参数和在某种干预后出现的新总体参数之间没有显著差异。我们将表示为当前总体参数μ等于干预后的总体参数 (注:这里说的等于并非完全等于,我们只是说二者没有显著差异)。对立假设猜测存在显著差异,当前总体均值将比干预后的总体均值小或大,或者二者之间不相等。

对于零假设,当我们猜测这两个参数之间没有显著差异时,样本均值将位于临界区之外,在上图的白色区域,同时应注意对于单尾检验,临界区可能在左端而非右端。

对立假设猜测有显著差异,表明样本均值将位于临界区的某个位置。

以一个双尾假设检验为栗:

example

上图栗子是检验如果在线上课程中有背景音乐会不会显著提高学员的参与度。

已知量:总体均值μ和σ。样本大小n和样本均值。

通过已知量计算抽样分布z值:注意上图的正态分布表示的样本均值分布。样本均值的均值应该和总体均值相同。标准偏差应等于总体标准偏差除以平方根n,我们想知道样本均值位于这个分布哪个位置也就是说z值为多少。

最终结果如下图:

result

z值1.89小于z值1.96,因此样本均值位于白色区域,即某个位于总体均值周围的95%样本均值之一,因此我们不能拒绝H0即零假设。没有足够的证据可以证明在推出音乐形式的课程后新的总体参数将与现在的总体参数显著不同。也就是说根据我们的样本,我们猜测参与度将保持不变。

假设检验(增大样本量)

如果增加样本量n=50,假设均值不变还是8.3,此时得出的z=2.44。针对α水平0.05提出同样的问题。

此次z=2.44大于Z临界值,表明样本均值位于临界区的某个位置,样本量为50的样本达到均值为8.3的概率非常的小,小于2.5%。因此我们将拒绝零假设,我们有证据证明歌曲对参与度有影响。

I型错误和II型错误

用公式表达为P(表示概率)小于0.05(α水平)。因为从样本量为50的样本中获得该样本均值的概率小于α水平。我们拒绝该零假设的理由是该概率太低。

低概率并不代表不会发生。这种类型的统计分析可能存在理解错误。能够观看音乐形式课程的学员,有可能之前参与度就高,我们错误的将高参与度均值归功于音乐。

我们有可能决策错误,引申出下图中的错误类型:

I类错误:拒绝了正确的H0假设
II类错误:接受了错误的H0假设

I类错误和II类错误

可以看出,统计学始终可能会理解有误,数据只能起到一定的作用,重要的是如何收集数据,样本量有多大?样本是随机的吗?在做出统计决策时,需要考虑各种因素。

猜你喜欢

转载自blog.csdn.net/Napoleonxxx/article/details/81667883