论文笔记 - 《A Fast Learning Algorithm for Deep Belief Net》---深度学习前夕

Hinton, Geoffrey E., Simon Osindero, and Yee-Whye Teh. “A fast learning algorithm for deep belief nets.” Neural computation 18.7 (2006): 1527-1554. [pdf](Deep Learning Eve)

作者: G.E.Hinton et. al.
日期: 2006
类型: article
来源: Neural Computation
论文链接: http://www.cs.toronto.edu/~hinton/absps/ncfast.pdf
文章比较"硬核", 各种算法原理解释, 数学公式和术语. 而且作者真的是很喜欢用一些生物上的词汇来描述模型, 比如synapse strength(突触强度), mind(头脑), 导致读的时候很困惑(挠头). 需要有RBM(受限玻尔兹曼机)和wake-sleep 算法的基础. 只做了简单的梳理和摘抄.
DBN算法就是Wake-Sleep算法+RBM，但是论文对Wake-Sleep算法解释特别少。可能还要学习Wake-Sleep和RBM相关的的知识才能慢慢理解。

原文摘要：

我们展示了如何使用“互补的先验”来消除解释的影响，这使得在紧密连接的置信网络中很难有许多隐藏的层。
利用互补的先验知识，我们推导出一种快速、贪婪的算法，可以学习深入的、有向的置信网络一层一层，提供了最上层的两层，形成一个无定向的联想记忆。
快速、贪婪算法用于初始化一个较慢的学习过程，该过程用一个对比版本的wake-sleep算法对权重进行微调。
经过微调后，一个带有三个隐藏层的网络形成了一个非常好的生成模型，它是手写数字图像和它们的标签的联合分布。
这种生成模型给出的数字分类比最好的鉴别学习算法更好。
这些数字所在的低维度的流形，是由顶级联想记忆的自由能景观中的长沟壑建模的，通过使用直接连接来显示联想记忆，很容易就能发现这些沟壑。

1、介绍

在密集的、有导向的置信网络中，学习是困难的，因为它有许多隐藏的层，因为在给定一个数据向量时很难推断隐藏活动的条件分布。
我们描述了一个模型，其中最上面的两个隐藏层形成一个无定向的联想记忆(见图1)，其余的隐藏层形成一个有向的非循环图，将联想记忆中的表示转换成可观察的变量，如图像的像素。这种混合模式具有一些吸引人的特点:（1）有一种快速、贪婪的学习算法，可以快速找到一组相当好的参数，即使是在具有数百万参数和许多隐藏层的深度网络中。（2）学习算法是无监督的，但可以通过学习生成标签和数据的模型来应用于标记数据。（3）有一种微调算法，它学习了一种优秀的生成模型，该模型在手写数字的MNIST数据库中优于鉴别方法。（4）生成模型可以很容易地解释深层隐藏层中的分布式表示。（5）形成一个规则所需要的推理既快速又准确。（6）学习算法是局部的。对突触强度的调整仅依赖于突触前神经元和突触后神经元的状态。（7）沟通是很简单的。神经元只需要交流它们的随机二进制状态。

图1:用于模拟数字图像和数字标签的联合分布的网络。在这篇文章中，每个训练案例都包含一个图像和一个显式的类标签，但是在进展中的工作已经表明，如果“标签”被一个多层路径所替代，那么同样的学习算法也可以被使用，因为它的输入是来自多个不同的光谱图，它们说的是孤立的数字。然后，网络学习生成由一个图像和一个相同数字类的光谱图组成的对。

图2:一个简单的逻辑置信网络，包含两个独立的、罕见的原因，当我们观察房子的跳跃时，它会变得高度的反相关。在地震节点上的。-10的偏差意味着，在没有任何观察的情况下，这个节点要比on的可能性大e10倍。如果地震节点是on，而卡车节点是off，则跳转节点的总输入值为0，这意味着它甚至有可能处于on状态。这是一种更好的解释，解释了为什么房子跳得比e-20的概率高。如果两个隐藏的原因都不活跃，则适用。但是，打开两个隐藏的原因来解释观察结果是一种浪费，因为两者发生的概率都是e-10×e-10 = e-20。当地震节点被打开时，它会“解释”卡车节点的证据。

2、互补的先验

介绍了“互补”的概念，这一概念正好抵消了“解释消失”现象，这使得在有导向的模型中推理困难。给出了一个具有互补先验的有向信念网络的例子。

3、限制玻尔兹曼机和对比发散学习

展示了受限的玻尔兹曼机器与有束缚权的无限定向网络之间的等价性。证明了RBMs和有关联权的无限定向网之间的等价性，这表明了一种有效的多层网络学习算法，在这个算法中，权重没有被束缚。

4、一种用于转换表示的贪心学习算法

介绍了一种快速、贪婪的构建多层定向网络的算法。使用一个变量绑定，它表明，随着每一个新层的加入，整个生成模型会得到改进。贪婪算法在重复使用相的“弱”学习者时，有一些相似之处，但不是重新加权每一个数据向量，以确保下一步学习新的东西，而是重新呈现它。“弱”的学习者被用来构造深定向的网本身就是一个无定向的图形模型。

5、用向上向下的算法进行反向拟合

展示了快速、贪婪算法产生的权重如何使用“向上向下”算法进行微调。这是wake-sleep算法(Hinton, Dayan, Frey， & Neal, 1995)的一种对比版本，它不受“模式-平均值”问题的困扰，因为这些问题会导致wake-sleep算法学习较差的识别权重。

6、在MNIST数据库上的性能

展示了一个具有三个隐藏层的网络的模式识别性能，以及在MNIST的手写数字上大约有170万的权重。当没有提供几何知识并且没有特殊的预处理时，网络的推广性能是1万位数的官方测试集的1.25%的错误，这超过了最好的反向传播网络在不为这个特定的应用程序手工制作时所获得的1.5%的误差。它也比Decoste和Schoelkopf(2002)报告的支持向量机在同一任务上所报告的1.4%的错误稍微好一些。

7、研究神经网络的思想

展示了当网络运行时，在不受视觉输入限制的情况下，会发生什么。该网络有一个完整的生成模型，因此很容易研究它的思想——我们只是从它的高级表示中生成一个图像。为了从模型中生成样本，我们在顶级联想存储器中执行交替的吉布斯抽样，直到马尔可夫链收敛到均衡分布。然后，我们使用这个分布的样本作为输入到下面的层，并通过生成的连接通过一个向下传递来生成一个图像。如果我们在吉布斯采样期间将标签单元夹到一个特定的类中，我们可以从模型的类条件分布中看到图像。

8、结论

我们已经证明，可以一次一层地学习一层深厚、紧密相连的置信网络。为了演示我们快速、贪婪的学习算法的威力，我们使用它来初始化一个更慢的微调算法的权重，该算法学习了一种优秀的数字图像和它们的标签的生成模型。

主要优点，与区别性模型相比:

生成模型可以在不需要标签反馈的情况下学习低层次的特性，而且他们可以学习更多的参数，而不需要过度拟合。在甄别学习中，每一个训练用例都只限定了指定标签所需要的信息量。对于生成模型，每个训练用例通过指定输入所需的比特数来约束参数。
通过从模型中生成网络，我们很容易看到它所学习到的东西。
可以通过生成图像来解释深层隐藏层中的非线性、分布式表示。
区分学习方法的高级分类性能只适用于不可能学习好的生成模型的领域。这一系列的领域正在被摩尔定律侵蚀。

IMU_Pandade

发布了64 篇原创文章 · 获赞 7 · 访问量 3万+

私信关注