一、背景介绍

在这里插入图片描述

$\Delta W=\partial\Big({\underset{positive\;phase}{\underbrace{E_{P_{Data}[vh^T]}}}-\underset{positive\;phase}{\underbrace{E_{P_{model}}[vh^T]}}}\Big)$

$P_{Data}=P_{Data}(h,v)=P_{Data}(v)P_{model}(h|v)\\P_{model}=P_{model}(h,v)=P_{model}(v)P_{model}(h|v)$

DBN

pre-training(stacking RBM)
Fine-tuning(wake-sleep/BP)

DBM

pre-training(stacking RBM)
SGA(随机梯度上升 Stochastic Gradient Ascend)

二、预训练

（一）介绍

$p(v)=\sum_{h^{(1)}}p(v,h^{(1)})=\sum_{h^{(1)}}p(h^{(1)};w^{(1)})p(v|h^{(1)};w^{(1)})$
$p(h^{(1)};w^{(2)})=\sum_{h^{(2)}}p(h^{(1)},h^{(2)};w^{(2)})$

在这里插入图片描述
True $h^{(1)}$ ：
$\underset{p(h^{(1)};w^{(1)},w^{(2)})}{\underbrace{p(h^{(1)})}}=\sum_{h^{(2)},v}\underset{由w^{(1)},w^{(2)}表示}{\underbrace{p(v,h^{(1)},h^{(2)})}}$

Intuition:
用 $p(h^{(1)};w^{(1)})$ 和 $p(h^{(1)};w^{(2)})$
几何平均去近似 $p(h^{(1)};w^{(1)},w^{(2)})$

（二）double counting problem

真正的： $p(h^{(1)};w^{(1)},w^{(2)})$
直觉：同时利用 $p(h^{(1)};w^{(1)})$ 和 $p(h^{(1)};w^{(2)})$ 去近似 $p(h^{(1)};w^{(1)},w^{(2)})$

$p(h^{(1)};w^{(1)})=\sum_vp(v,h^{(1)};w^{(1)})=\sum_vp(v)p(h^{(1)}|v;w^{(1)})\approx \underset{Aggregated\;Posterior}{\underbrace{\frac1N\sum_{v\in V}p(h^{(1)}|v;w^{(1)})}}$
$p(h^{(1)};w^{(2)})=\sum_{h^{(2)}}p(h^{(1)},h^{(2)};w^{(2)})=\sum_{h^{(2)}}p(h^{(2)})p(h^{(2)}|h^{(1)};w^{(2)})\approx \frac1N\sum_{h^{(2)}\in H}p(h^{(2)}|h^{(1)};w^{(2 )})$

$V:样本集合\;\;\;\;\;v\in V$
$H:采样样本集合\;\;\;\;\;h^{(2)}\in H$
$h^{(2)}依赖于 V$

在这里插入图片描述
double counting ：所表达的分布过于sharp

（三）小结

在这里插入图片描述

在这里插入图片描述
由上图转化为下图，不能简单的看作系数除以2，我们单看中间的层数时，即不看最上面和最小面的层，不难发现，是可以用这种二倍系数来表示的，但是当看最下面的 $h^{(1)}$ 和最上面的 $h^{(3)}$ 层时，发现就不能用这种方式了，需要单独进行考虑。

我们将最下面一层往上保持2倍，往下还是直接用 $w^{(1)}$ 表示，同样的，把最上面的 $h^{(3)}$ 层往下用2倍表示，往上还是用 $w^{(3)}$ 来表示，如下图所示。

在这里插入图片描述

下一章传送门：白板推导系列笔记（三十）-生成模型综述

机器学习-白板推导系列笔记（二十九）-DBM

一、背景介绍

二、预训练

（一）介绍

（二）double counting problem

（三）小结

猜你喜欢