【人工智能行业大师访谈7】吴恩达采访 Ruslan Salakhutdinov

来源：Coursera吴恩达深度学习课程

作为deeplearning.ai课程的一部分，Andrew希望除了教授技术理念之外，同时介绍一些深度学习的先驱给大家认识。在这个视频中，Andrew也希望问问这些先驱们，能不能给一些工作上的建议，关于如何入门深度学习，如何做课题研究或者如何在深度学习领域找一份工作。【人工智能行业大师访谈6】吴恩达采访 Andrej Karpathy。最后，采访 Ruslan Salakhutdinov，文章末尾有总结。

吴恩达：欢迎你，Rus，很高兴今天你能接受采访。

Rus：谢谢你，谢谢你，Andrew。

吴恩达：现在你是苹果公司的研究主管，你也有一个教职，卡内基梅隆大学（Carnegie Mellon University）的教授，所以我很想听听你的个人故事，你是如何一步步进入深度学习领域工作的呢?

Rus：是的，其实，某种程度上，我进入深度学习领域纯粹是运气（luck）。我在多伦多大学读的硕士，然后我休学了一年。我实际上在金融领域工作，很意外吧。那时候，我不太清楚是否要去读一个博士学位，然后发生了一些事情，发生了一些意外的事情，有一天早上我要上班路上遇到了Geoff Hinton，Geoff告诉我，“嘿，我有这个好想法，来我办公室，我跟你说”，所以我们基本上一起散步，然后他开始给我讲波尔兹曼机器（Boltzmann Machines），对比散度法（contrasting divergence）和其他算法。当时我并没有明白他在说什么，但真的，我真的很激动，太令人兴奋了，我非常兴奋。后来就这样，三个月内，我就跟着Geoff读博了。这是开始，因为那是2005、2006年的事了，这是一些原始的深度学习算法（original deep learning algorithms），使用受限玻尔兹曼机，无人监督的预训练，这些概念开始成熟，这就是一切的开始，真的是这样。那个特别的早晨，我偶然碰到了Geoff，完全改变了我未来的事业发展方向。

吴恩达：然后你其实是早期一篇关于受限玻尔兹曼机的论文的合著者（co-author），真正让神经网络和深度学习的概念涅槃重生，你可以告诉我更多关于那个研讨会的工作吗?

Rus：是的，这其实真的很激动人心。是的，那是第一年，我的PhD生涯的第一年，Geoff和我试图探索使用受限玻尔兹曼机的这些算法，使用预训练等技巧训练多层网络（using pre-training tricks to train multiple layers）。具体来说我们集中精力处理自动编码器（audo-encoders），我们应该怎么高效的去做PCA的非线性拉伸呢?这是非常令人兴奋的，因为我们的系统能够处理MNIST数字，这是令人兴奋的，但那之后我们走的路，让我们看到这些模型真的可以推广到人脸识别。我还记得那时我们有这个Olivetti人脸数据集然后我们开始在想，是不是可以改善文档压缩，我们开始观察所有这些不同的数据，实值计数（real valve count），布尔代数（binary），用了整整一年。我还是博士生第一年，所以那是很充实的学习经验，但是真的在六七个月内，我们已经能够得到非常有趣的结果，我是说非常好的结果。我想我们能够训练这些层次非常深的自动编码器，这是当时还做不到的事情，用传统的优化技术做不到的事情，但接下来，这就变成了对我们来说非常激动人心的时期，那是超级激动人心的。是的，因为我那时不断在学习新知识，但同时，我们的工作出来的结果，真的很令人印象深刻。

吴恩达：所以在深度学习复兴初期，很多研究都集中在受限玻尔兹曼机上，然后是深玻尔兹曼机，还出来了很多令人兴奋的研究，包括你们组的一些研究，但玻尔兹曼机还有受限玻尔兹曼机器现在怎么样了?

Rus：是的，这是一个很好的问题，我觉得在早期，我们使用受限玻尔兹机器的方式，你可以想象一下训练一堆这些受限玻尔兹曼机，让你能够很有效地一次学习一层，有很好的理论基础，告诉你添加特定的一层之后，你可以在特定条件上证明它是有变分界限之类的，所以是有理论支持的，这些模型能够在预训练这些系统方面达到很好的效果。然后在2009年左右，2010年，计算力量开始出现了。GPU开始很强，我们很多人开始意识到，直接优化这些深层神经网络，可以得到类似的结果，甚至更好的结果。

吴恩达：所以只是标准的反向传播，不带预训练的受限玻尔兹曼机。

Rus：没错，没错，那之后大概过了三四年，大家都变得很兴奋。因为人们觉得，哇，你真的可以用预训练机制（pre-training mechanisms）这么训练深层模型，然后，随着更多计算力量变强，人们突然发现，你可以直接做标准反向传播（standard backpropagation）。那是2005年或2004年我们绝对做不到的事情，因为CPU计算要几个月的时间，所以这是一个很大的变化。另一件事，我们还没想清楚的是，如何使用玻尔兹曼机和深玻尔兹机器。我相信他们是非常强大的（powerful）模型，因为你们可以把它们看成是生成性模型（generative models），它们试图对数据进行耦合分布建模（model coupling distributions in the data），但是当我们开始研究学习算法（learning algorithms）时，现在学习算法，他们需要使用马尔可夫链（Markov Chain），蒙特卡罗（Monte Carlo）和变分学习（variational learning）等。它们并不像反向传播算法那样可以轻松扩展，我们还没有想出更有效训练这类模型的方法，还有卷积（convolution）的使用。这些模型有点难以适应到现在的计算硬件，我还记得你当时有些工作用的是概率最大池化（probabilistic max pooling），来构建这些不同对象的生成模型，但同时，训练这些模型还是很困难的。

吴恩达：可行性有多高呢?

Rus：是啊，可行性有多高呢?我们还是要弄清楚怎么办，另一方面，最近使用变分自动编码器（variational auto-encoders）的一些工作，例如，可以看成是可以看作是玻尔兹曼机的交互式版本，我们想出了训练这些模块的办法，是Max Welling和Diederik Kingma的工作，或者使用重新参数化技巧（reparameterization tricks）。我们现在可以在随机系统内使用反向传播算法，正在推动着各方面很大的进步，但是波尔兹曼机这边，我们还没想出应该怎么做到这点。

吴恩达：这实际上是一个非常有趣的视角，我实际上并不知道在计算机较慢的早期RBM和预训练真的很重要，只有计算硬件力量的上升才推动了到标准反向传播的转变。在社区对深度学习思想的演变方面，还有其他话题，我知道你花了很多时间思考这个，生成的无监督方法 vs 监督的方法，你可以给我们分享一下你的想法是如何随着时间推移演变的吗?

Rus：是的，我觉得这真是，非常重要的话题，特别是如果我们考虑无监督（unsupervised），半监督（semi-supervised）或生成模型（generative models）。因为某种程度上我们最近看到的很多成功案例是来自监督学习的，而在早期无监督学习主要被视为无监督预训练，因为我们不知道如何训练这些多层系统，即使在今天，如果你的系统面对的是大量无标签数据和一小部分有标签数据的样本，这些无监督的预训练模型建立这些生成模型可以帮到监督训练。所以我觉得我们社区里很多人都抱有这样的信念。当我开始做博士后，做的都是生成模型并试图学习这些堆叠起来的模型，因为那时是训练这些系统的唯一途径。今天在生成建模领域里有很多工作，你们看看生成对抗网络，你们看看变分自动编码器，深度能量模型（deep energy models）是我的实验室现在正在研究的，我认为这是非常令人兴奋的研究，但也许我们还没有把它弄清楚，再次，对于正在考虑进入深度学习领域的许多人来说。这个领域我觉得，我认为我们还会取得很大进展，希望在不久的将来。

吴恩达：所以无监督学习。

Rus：无监督的学习，对，或者你可以看成是无监督学习或者半监督学习，其中我们会给一些提示或者例子，说明不同东西的含义，然后丢给你大量的无标签数据（unlabeled data）。

吴恩达：所以这实际上是一个非常重要的见解。在深度学习的早期，那时计算机要慢一些，必须用到受限玻尔兹曼机和深玻尔兹曼机，初始化神经网络权重（initializing the neural network weights），但随着计算机变得更快，直接反向传播开始效果更好了。还有一个话题我知道你花了很多时间去想的，监督学习和生成模型，无监督学习的对比，你的看法呢?可以告诉我们，关于这个争议的看法是怎么随时间演变的?

Rus：我们所有人都相信在那里可以取得进展，就是这些玻尔兹曼机，变分自动编码器，GAN 所有工作。你认为这里很多模型都是生成模型，但是我们还没有弄清楚如何真正让它们变得可行，如何利用大量数据。我在IT业界见到很多，公司有大量的数据，大量的未标记的数据，有很多注释数据的努力，因为现在这是取得进展的唯一途径，我们应该能够利用这些无标签数据，因为实在太多了，我们还没弄清楚如何做到。

吴恩达：所以你提到对于要进入深度学习领域的人，无监督学习是令人兴奋的领域，今天有很多人想进入深度学习做研究或应用工作，对于这个全球性的社区来说，要做研究或应用工作，你会有什么建议?

Rus：是的，我认为最关键的建议之一，要给进入这个领域新人的建议，我会鼓励他们尝试不同的事情（I would encourage them to just try different things），不要害怕尝试新事物（not be afraid to try new things），不要害怕尝试创新（not be afraid to try to innovate）。我可以给你一个例子，当我是研究生时，我们正在研究神经网络，这些是非常难以优化的非凸系统（non-convex systems）。我还记得在优化社区的朋友聊天，他们的反馈总是这样，这些问题你们解决不了的，因为这些是非凸的，你们不了解优化，凸优化都那么难做，你们还要做非凸优化?然后令人惊讶的是在我们的实验室里，我们从来不关心这么具体的问题，我们正在考虑如何优化，看看能否获得有趣的结果，这种心态有效地推动了社区的发展，我们没有害怕，也许一定程度上是因为，我们没有认真研究优化背后的理论，但我会鼓励人们尝试，不要害怕，要试试挑战一些困难的问题。

吴恩达：是的，我记得你曾经说过，不要只学编写高层次的深度学习框架，应该实际了解深度学习的底层。

Rus：是的，没错，我认为，当我教深度学习课程时，我一直尝试去做的是，在作业里，我要求人们实际编写，卷积神经网络的反向传播算法。那很痛苦，但如果你做过一次之后，你就真正了解这些系统背后的运作原理以及如何在GPU上高效实现它们，我认为当你进入研究或工业界时，最重要的是你对这些系统实际在做的事情要有很深入的理解，所以我想这很重要。

吴恩达：既然你有学术界当教授的经验，也有企业经验，我很好奇，如果有人想进入深度学习领域读博和进入公司各有什么利弊?

Rus：是的，我认为这其实是个很好的问题，特别是在我的实验室里，我有各种背景的学生，有些学生想去走学术路线（academic route），有些学生想走工业路线（industry route）。现在变得非常有挑战性（challenging），因为在工业里你也能做出一流的研究，你也可以在学术界做出一流的研究。但利弊方面，在学术界，我觉得你有更多的自由来处理长期的问题或者如果你喜欢思考一些疯狂的问题，你想自由自在的工作，去研究。与此同时，在企业里的研究也很激动人心，因为很多情况下，你的研究可以直接影响到数百万用户，比如开发一个核心的AI技术。显然，在企业里你有更多的计算资源，能够做到非常惊人的事情，所以都有优缺点（pluses and minuses），这真的取决于你想做什么（it really depend on what you want to do）。现在环境非常有趣，有学术界转向工业界的，还有工业界的转向学术界的，虽然更少一点，但现在是非常令人兴奋的时代。

吴恩达：听起来学术界机器学习不错，企业界机器学习也很棒，最重要的是跳进去，对吧?选一个，跳进去。

Rus：这真的取决于你的喜好（preferences），因为你在什么地方都可以做出惊人的研究（amazing research）。

吴恩达：所以你提到无监督学习（unsupervised learning）是一个令人兴奋的研究前沿，你觉得还有其他领域你觉得是令人兴奋的研究前沿吗?

Rus：是的，当然了。我想我现在看到，在现在的社区里看到，特别是在深度学习社区，有几个趋势，我认为有一个特别的趋于特别令人兴奋是深度加强学习领域（deep reinforcement learning）。因为我们能够弄清楚，我们如何在虚拟世界中训练代理程序，这是过去几年里，我们看到很多的有很多进展，我们是如何把这些系统推广到更大规模上，我们如何开发新的算法，如何让代理程序互相沟通。我觉得这个领域，一般来说，你能和环境交互这些场合是非常激动人心的。我认为还有另一个领域令人兴奋，就是推理和自然语言理解的领域（reasoning and natural language understanding），我们可以建立基于对话的系统（dialogue-based systems）吗?我们可以建立能够推理，能够读懂文本的系统，能够智能回答问题的系统吗?我认为这是现在很多研究的重点。然后还有另一类子领域也是，这个领域可以从很少的几个例子中学到知识，所以通常人们说是一次学习（one-shot learning）或迁移学习（transfer learning），你从环境习得某种东西，然后我给你一个新的任务，你可以很快地解决这个任务，就像人类一样，而不需要很多很多带标签的样本，所以这个概念是我们社区里很多人都想弄清楚的，我们应该如何做到，如何达到接近人类的学习能力。

吴恩达：谢谢Rus给我们分享所有的评论和见解，更有趣的是，能听到你的早年故事。

Rus：谢谢 Andrew，是的，谢谢你的采访。

总结：（1）今天有很多人想进入深度学习做研究或应用工作，对于这个全球性的社区来说，要做研究或应用工作，你会有什么建议? Rus认为最关键的建议之一，要给进入这个领域新人的建议，我会鼓励他们尝试不同的事情（I would encourage them to just try different things），不要害怕尝试新事物（not be afraid to try new things），不要害怕尝试创新（not be afraid to try to innovate）。

（2）如果有人想进入深度学习领域读博和进入公司各有什么利弊? Rus认为这取决于你的喜好（preferences），因为你在什么地方都可以做出惊人的研究（amazing research）。

说明：记录学习笔记，如果错误欢迎指正！写文章不易，转载请联系我。

【人工智能行业大师访谈7】吴恩达采访 Ruslan Salakhutdinov

猜你喜欢