机器学习概率图—概率分布和因子分解

持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第19天，点击查看活动详情

概率分布

联合概率(Joint Distribution)

Intelligence(I) $(i^0,i^1)$
Difficulty(D) $(d^0,d^1)$
Grade(G) $(g^1(A),g^2(B),g^3(C))$

这里 Intelligence 表示智力，不同学生智力虽然约有差异， $i^0$ 表示普通智力水平，而 $i^1$ 则表示不同于常人的高智商。Difficulty 则表示课程的难易程度， $d^0$ 表示容易而 $d^1$ 表示比较难的课程。Grade 这里表示成绩，这里成绩主要分为 3 类，分别为 $g^1$ 、 $g^2$ 和 $g^3$ 其中 $g^1$ 这是最好成绩，以此类推。

这里 Intelligence 有 2 个取值、Difficulty 也有 2 个取值，Grade 则有 3 个取值，所以一共 $2 \times 2 \times 3$ 也就是 12 种组合。

条件概率(Conditioning)

屏幕快照 2022-06-12 下午7.29.14.png

P(I,D|g^1)

也就是已知随机变量 $G$ 取值为 $g^1$ ,也就是我们观测到一个学生拿到 A 也就是 $g^1$ ，所以我们就可以仅保留随机变量 G 取值为 $g^1$ 的条目。不过现在我们看下面表格中概率分布求和并不满足为 1，所以需要对概率进行归一化，也就是将 prob. 值进行求和

屏幕快照 2022-06-12 下午7.42.18.png

这样得到 0.447 然后再用每一个概率值除以归一化值 0.447 后得到概率再次求和就为 1 了，如下

屏幕快照 2022-06-12 下午7.42.44.png

求边缘概率

I	D	Prob
$i^0$	$d^0$	0.282
$i^0$	$d^1$	0.02
$i^1$	$d^0$	0.564
$i^1$	$d^1$	0.134

求解边缘概率也比较简单就是 $\sum_G P(I,D,G)$ 得到上面 $P(I,D)$ 概率

因子分解

Factor 这里也称为因子，其实所谓因子就是一个函数既然因子可以作为函数，输入是 $X_1,\cdots,X_k$ 随机变量对应取值，输出是一个实数

\phi(X_1,\cdots,X_k)\\ \phi:Val(X_1,\cdots,X_k) \in \mathbb{R}

作用域为

{X_1,\cdots,X_K}

上面联合分布 $P(I,D,G)$ 就是一个因子，也就是随机变量 I、D 和 G 随机变量取值的组合，输出是一个实数，

对于随机变量 I、D 和 G 不同值组合可以得到一个概率值，其实因子输出的值并不一定是一个概率值。

例如条件概率 $P(I,D|g^1)$ 也是一个因子，作用域为 $I,D$ 。

屏幕快照 2022-06-12 下午7.29.14.png

因为在这里 $g^1$ 可以视为一个常量，所以作用域为 $I,D$

条件概率分布

在概率图中，条件概率分布是一个非常重要的概念。因为概率图研究的是随机变量之间的联系，而且条件概率是可以表示在给定其他概率条件某一个条件概率分布，例如 I 和 D 每一个取值组合条件下 G 的概率分布情况。

	$g^1$	$g^2$	$g^3$
$i^0,d^0$	0.3	0.4	0.3
$i^0,d^1$	0.05	0.25	0.7
$i^1,d^0$	0.9	0.08	0.02
$i^1,d^1$	0.5	0.3	0.2

我们来看最下面一行表示含义，也就是对于智力比较高 $i^1$ 和课程比较难 $i^1$ 要取得 A、B 和 C 成绩概率分别是 0.5、0.3 和 0.2。

A	B	$\phi$
$a^0$	$b^0$	30
$a^0$	$b^1$	5
$a^1$	$b^0$	1
$a^1$	$b^1$	10

其实这里并不是一定所有 A 和 B 组合得到值是概率值，可以是普通的值，也就是因子的值是一个实数，这里作用域时 A 和 B。

因子计算

因子相乘(Factor Product)
因子求和(Factor Marginalization)