概率论知识点误区

1. 为什么要写这篇博客?

  最近在和几个小伙伴一起复习《统计学习方法》。由于该书为经典教材,所以采用一字不差的方法进行阅读。但在学习过程中遇到了各种各样的问题,总结了一下原因,其中很重要的一点是基本概念理解不透彻(甚至从来就没理解)。所以将概率论的容易理解错误而且至关重要基本概念整理出来,从而方便大家学习。

  如果基础较好,可以直接看2.5(极大似然估计)部分,如果对叙述中的概念都非常明了,就可以去学习更多高阶的知识了。反之,建议从基本概念开始学起,除了博客的内容,更推荐去阅读参考教材1。

2. 基本概念

2.0 伯努利分布和二项分布的区别是什么?

  伯努利分布和两点分布是一样的。该问题较为简单,就是有时候容易记混。

2.1 什么是随机变量?

  随机变量并不是变量,而是函数,它是把随机试验的结果转换为数值的函数。数值有两种可能,一种是实数(有大小关系),另外一种只是数字化后的结果(没有大小关系,类似于LabelEncoder的结果,这点来自于参考教材1)。

  常见误区如下所示:

  1. 随机变量是一个变量。
  2. 随机变量的值域中的值与值之间为大小关系。

2.2 p()中;和,的区别

  具体来说,这个问题就是 p ( x , θ ) p(x,\theta) p ( x ; θ ) p(x;\theta) 两者之间的区别。前者表示的是 θ \theta 是个随机变量,而后者表示 θ \theta 是个未知的常量。其实这两者也对应的是贝叶斯派和频率派的符号表示。

2.3 什么是样本?

  样本对应的英文词汇是sample,使用英英词典进行查询,结果为a small part or amount of something that is examined in order to find out something about the whole。抽取的一部分总体单元的全体称为抽自总体的一个样本,被抽到样本里的总体单元称为样本单元(参考教材1 P145)

  常见误区如下所示:

  1. 把样本误认为了样本单元。

2.4 什么是总体?总体和随机变量的关系是什么?

  把某一个问题所涉及对象的全体称为总体。组成总体的每一个基本单元(具体对象)称为总体单元。为刻画总体单元在某一方面特性而采用的名称叫做总体指标。但需要注意的是,经常用随机变量X表示人们所关心的一个总体指标,此时研究总体就等价于研究一个随机变量X,在本书中总体和随机变量X是可以等同起来的。(参考教材1 P143)。

  也就是说本来总体是研究多个指标,但在所学书籍中,只研究单个指标(潜规则)。所以在本书中(大学阶段),总体和单个随机变量是等同的。

2.5 极大似然估计

2.5.1 理论

  先研究离散型总体。假设总体 X X 的概率函数 P { X = x } = P ( x ; θ ) P\{X=x\}=P(x;\theta) ,( θ Θ \theta \in \Theta )的形式已知, θ \theta 为待估参数, Θ \Theta θ \theta 的取值范围, X 1 , X 2 , , X n X_1,X_2,\dots,X_n 为来自总体 X X 的简单随机样本, x 1 , x 2 , , x n x_1,x_2,\dots,x_n 是样本的一个实现,则样本 X 1 , X 2 , , X n X_1,X_2,\dots,X_n 分布的概率函数在 x 1 , x 2 , , x n x_1,x_2,\dots,x_n 的函数值为:
L ( X 1 , X 2 , , X n ; θ ) = i = 1 n P ( X i ; θ ) ( θ Θ ) L(X_1,X_2,\dots,X_n;\theta)=\prod \limits _{i=1}^n P(X_i;\theta) \quad (\theta \in \Theta)

  如果能对上述这段话有清晰的理解,具体来说就是总体 X X X 1 , X 2 , , X n X_1,X_2,\dots,X_n 为来自总体 X X 的简单随机样本, x 1 , x 2 , , x n x_1,x_2,\dots,x_n 是样本的一个实现这几句话有清晰的理解,基本上就说明对概率论的部分基本概念理解了。

2.5.2 实践

  检验理论的最好方式就是实践,以抛硬币为例。假如有一枚正常的硬币,向上抛五次,五次均是正面朝上,使用极大似然估计法求解再抛一次硬币是正面的概率是多少?

  用一组随机变量 X 1 , X 2 , . . . X 5 X_1,X_2,...\dots X_5 表示样本,每个样本单元的基本含义为每一次扔钢镚正面朝上(1)、正面朝下(0)。假设抛硬币正面朝上的概率为 μ \mu ,可得每次均是正面朝上的概率表示为:
P ( X 1 = 1 , X 2 = 1 , X 3 = 1 , X 4 = 1 , X 5 = 1 ; μ ) P(X_1=1,X_2=1,X_3=1,X_4=1,X_5=1;\mu)

= i = 1 5 P ( X i = 1 ; μ ) = μ 5 =\prod \limits _{i=1} ^{5} P(X_i=1;\mu)=\mu^5

μ = arg max μ u 5 u [ 0 , 1 ] \mu=\argmax _{\mu} u^5 \quad u \in [0,1]

可求得
μ = 1 \mu=1

2.5.3 实践扩展

  相同的问题,假如我们不用多个随机变量来表示样本,而是用单个随机变量来表示样本,此时随机变量( X X )的值表示的是正面朝上的次数(样本单元从5个变成了1个,连乘的次数也就从5变成了1)。

  假设抛硬币正面朝上的概率为 μ \mu P ( X = 5 ; μ ) = i = 1 1 C 5 5 μ 5 ( 1 μ ) 0 = μ 5 P(X=5;\mu)=\prod \limits _{i=1}^1 C_{5}^{5} \mu^5(1-\mu)^{0}=\mu^5 。后续计算过程是相同的,也就是说对同一问题采用不同的建模方法得到的结果是相同的。

3. 参考教材

参考教材1:《概率论与数理统计》(作者:郭满才)

发布了178 篇原创文章 · 获赞 389 · 访问量 6万+

猜你喜欢

转载自blog.csdn.net/herosunly/article/details/103487607