机器学习概率图—概率分布和因子分解

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第19天,点击查看活动详情

概率分布

联合概率(Joint Distribution)

  • Intelligence(I) ( i 0 , i 1 ) (i^0,i^1)
  • Difficulty(D) ( d 0 , d 1 ) (d^0,d^1)
  • Grade(G) ( g 1 ( A ) , g 2 ( B ) , g 3 ( C ) ) (g^1(A),g^2(B),g^3(C))

这里 Intelligence 表示智力,不同学生智力虽然约有差异, i 0 i^0 表示普通智力水平,而 i 1 i^1 则表示不同于常人的高智商。Difficulty 则表示课程的难易程度, d 0 d^0 表示容易而 d 1 d^1 表示比较难的课程。Grade 这里表示成绩,这里成绩主要分为 3 类,分别为 g 1 g^1 g 2 g^2 g 3 g^3 其中 g 1 g^1 这是最好成绩,以此类推。

joint_distribution.png

这里 Intelligence 有 2 个取值、Difficulty 也有 2 个取值,Grade 则有 3 个取值,所以一共 2 × 2 × 3 2 \times 2 \times 3 也就是 12 种组合。

条件概率(Conditioning)

屏幕快照 2022-06-12 下午7.29.14.png

P ( I , D g 1 ) P(I,D|g^1)

也就是已知随机变量 G G 取值为 g 1 g^1 ,也就是我们观测到一个学生拿到 A 也就是 g 1 g^1 ,所以我们就可以仅保留随机变量 G 取值为 g 1 g^1 的条目。不过现在我们看下面表格中概率分布求和并不满足为 1,所以需要对概率进行归一化,也就是将 prob. 值进行求和

屏幕快照 2022-06-12 下午7.42.18.png

这样得到 0.447 然后再用每一个概率值除以归一化值 0.447 后得到概率再次求和就为 1 了,如下

屏幕快照 2022-06-12 下午7.42.44.png

求边缘概率

I D Prob
i 0 i^0 d 0 d^0 0.282
i 0 i^0 d 1 d^1 0.02
i 1 i^1 d 0 d^0 0.564
i 1 i^1 d 1 d^1 0.134

求解边缘概率也比较简单就是 G P ( I , D , G ) \sum_G P(I,D,G) 得到上面 P ( I , D ) P(I,D) 概率

因子分解

Factor 这里也称为因子,其实所谓因子就是一个函数 既然因子可以作为函数,输入是 X 1 , , X k X_1,\cdots,X_k 随机变量对应取值,输出是一个实数

ϕ ( X 1 , , X k ) ϕ : V a l ( X 1 , , X k ) R \phi(X_1,\cdots,X_k)\\ \phi:Val(X_1,\cdots,X_k) \in \mathbb{R}

作用域为

X 1 , , X K {X_1,\cdots,X_K}

上面联合分布 P ( I , D , G ) P(I,D,G) 就是一个因子,也就是随机变量 I、D 和 G 随机变量取值的组合,输出是一个实数,

joint_distribution.png

对于随机变量 I、D 和 G 不同值组合可以得到一个概率值,其实因子输出的值并不一定是一个概率值。

例如条件概率 P ( I , D g 1 ) P(I,D|g^1) 也是一个因子,作用域为 I , D I,D

屏幕快照 2022-06-12 下午7.29.14.png

因为在这里 g 1 g^1 可以视为一个常量,所以作用域为 I , D I,D

条件概率分布

在概率图中,条件概率分布是一个非常重要的概念。因为概率图研究的是随机变量之间的联系,而且条件概率是可以表示在给定其他概率条件某一个条件概率分布,例如 I 和 D 每一个取值组合条件下 G 的概率分布情况。

g 1 g^1 g 2 g^2 g 3 g^3
i 0 , d 0 i^0,d^0 0.3 0.4 0.3
i 0 , d 1 i^0,d^1 0.05 0.25 0.7
i 1 , d 0 i^1,d^0 0.9 0.08 0.02
i 1 , d 1 i^1,d^1 0.5 0.3 0.2

我们来看最下面一行表示含义,也就是对于智力比较高 i 1 i^1 和课程比较难 i 1 i^1 要取得 A、B 和 C 成绩概率分别是 0.5、0.3 和 0.2。

A B ϕ \phi
a 0 a^0 b 0 b^0 30
a 0 a^0 b 1 b^1 5
a 1 a^1 b 0 b^0 1
a 1 a^1 b 1 b^1 10

其实这里并不是一定所有 A 和 B 组合得到值是概率值,可以是普通的值,也就是因子的值是一个实数,这里作用域时 A 和 B。

因子计算

  • 因子相乘(Factor Product)
  • 因子求和(Factor Marginalization)

猜你喜欢

转载自juejin.im/post/7108334820467572750