【人工智能行业大师访谈2】吴恩达采访 Pieter Abbeel

来源：Coursera吴恩达深度学习课程

作为deeplearning.ai课程的一部分，Andrew希望除了教授技术理念之外，同时介绍一些深度学习的先驱给大家认识。在这个视频中，Andrew也希望问问这些先驱们，能不能给一些工作上的建议，关于如何入门深度学习，如何做课题研究或者如何在深度学习领域找一份工作。作为这个采访的开头，很荣幸先展示Geoffrey Hinton的采访视频【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton。接下来，采访 Pieter Abbeel，文章末尾有总结。

吴恩达：谢谢你，Pieter，能够来到这，很多人都认为你是一位有名的机器学习、深度学习、机器人技术的研究者。我想让更多人知道你的故事，你是怎么开始的呢。

Pieter Abbeel：这是个好问题，要是你问14岁的我，我的志向在什么，可能就不会是现在的答案，那时候我想当职业篮球运动员，我不认为我能做到。

吴恩达：机器学习侥幸做成了，篮球应该没戏。

Pieter Abbeel：是的，没戏，打篮球很好玩，但是变成职业不太行，在学校我最喜欢物理和数学（physics and math），所以之后学工程就比较自然，也就是实际应用物理和数学。之后，我本科毕业于电子工程后，我不太确定做啥，因为工程相关的一切都太有趣了，去懂得一个东西如何运作很有趣，建一个东西也是某种意义上，AI赢了，因为看起来它在某种程度能帮助所有学科，并且它看起来是一切东西的核心，你会思考一个机器怎么思考的，那可能是一切的核心，也就不用选某个特定的学科。

吴恩达：我一直在说AI是新的电力（AI is the new electricity），听起来14岁时的你，已经有很超前的意识，过去几年你在深度增强学习中贡献很大，现在情况如何，为什么深度增强学习（deep reinforcement learning）突然变得重要?

Pieter Abbeel：在我研究它之前，我研究了很多增强学习，与你和Durant在斯坦福的时候。当然了，我们做了自主直升机飞行，后来去伯克利和我的学生们，做了个会叠衣服的机器人。可以说是用组合的学习方式来描述，做成一些不学习就无法做成的事，也结合了领域知识才能完成，这很有趣。因为你需要领域知识，想办法学到很好玩，但同时每次想做成新的应用都会很耗时，需要领域知识（domain expertise）和机器学习知识（machine learning expertise）。在2012年，通过Geoff Hinton多伦多小组对ImageNet的研究结果突破，AlexNet证明监督学习，突然之间大大减少了工程量，AlexNet中所用的工程量非常之小，让我开始思考，我们该用类似观点回顾增强学习，看我们能否用增强学习做与监督学习同样有趣的事。

吴恩达：听起来你早于，大多数人前，发现深度监督学习的潜力。展望未来，你看到下一件事是什么，你对下一阶段有什么样的预测在深度增强学习中。

Pieter Abbeel：我认为深度增强学习有趣在于，某种程度上比监督学习有更多的问题，在监督学习中问题在于输入，输出，映射；在增强学习中是数据是从何而来的，就是探索问题本身，当你有数据之后，你怎么做信用赋值，你怎样理解早期做什么，才能之后受益以及安全问题，当你有自主收集数据的系统后，在很多情况下其实很危险，想象一家自驾车公司说，我们只会用深度增强学习来运行车辆，听着就像会有很多事故，在真正起作用之前。

吴恩达：你需要反面例子（negative examples），对吧。

Pieter Abbeel：是需要反面例子，希望也有正面的。我觉得深度增强学习还有很多挑战，在解决特定问题时如何做成功，深邃的部分在于表达，增强学习本身还有很多问题，我个人觉得是深度学习的进步，一部分增强学习的谜团能被解开，就是表达的部分，如果有模式，我们可能表达为一个深度网络，并抓取模式，怎么分解模式仍然是增强学习中很大的挑战。我认为大挑战在于，如何让系统在长时间线上保持推理能力（how to get systems to reason over long time horizons.），现今很多深度增强学习，都是短时间线上的。还有很多问题是，如果对五秒的反应不错，对整个问题的反应都会不错。五秒和一天的规模相差很大，或是让机器人或软件主体保持一辈子的功能。我认为这里面有很多挑战，安全方面的挑战是当效果已经很不错时如何安全持续地学习。所以，再举个例子，很多人对自主驾驶车（self-driving cars）很熟悉，让它们比人开车更好。假设人在每三百万英里，碰到一次很糟的事故，会需要很长时间才会有负面数据，如果和人一样好的话，但你想要更好，那么数据的收集就变得很难，很难得到让系统表现更好的数据，探索其中有许多牵连的挑战。我最兴奋看到的是，我们能不能往后一步，还是能学增强学习的算法。增强是很复杂（So reinforcement is very complex），信用赋值（credit assignment）也是，探索（exploration）更是，就像对于深度学习中的监督学习，可以做到替代领域知识，可能也能有程序--增强学习的程序也能做到取代我们亲自设计细节。

吴恩达：学习回报函数还是整个程序？（learning the reward function or learning the whole program?）。

Pieter Abbeel：这就需要学习整个增强学习程序，可能是，想象一下，你有这么个程序，不管是什么，你给它一个问题，看多久才能学会，然后发现，嗯，花了挺久，让另一个程序来修正原本这个，加完这一步，试试看，要是学的快多了，修正的就很好，然后从此想办法继续进步。

吴恩达：我明白了，奠定基础。

Pieter Abbeel：这可能和可用的计算量有关，就像在内环中运行增强学习，现在，运行增强学习是最后一步，越多计算量越有可能运行的了，就像在内环的增强学习是更宏观算法的一部分。

吴恩达：从14岁起，你在AI工作有二十多年了，你怎么理解AI这段时间的进化。

Pieter Abbeel：我试着理解AI的时候很有趣，因为其实与我在斯坦福的硕士学位相符，其中有很多领袖我亲自交流过的，比如John McCarthy，相比较2000年时，用的方法与众不同，和大多数人在做的事不同。然后和Daphne Koller的交谈，形成了我对AI最初的想法，她的AI课程，她的概率图模型课（her probabilistic graphical models class），让我真正产生兴趣，随机的变量如何应用于简单的分布，再被分成子集变量（subsets variables），然后其他的结论，都会让你知道好多，要是能让它计算起来也容易，那就很具挑战了。从那之后，我开始攻读博士，你到斯坦福后，是个很棒的现实提醒，也就是，不该去检验你研究里的度量是否正确，而是去看一种关联（connection），你在做的事情和影响你的东西之间有何关联，你的研究实际改变了什么，而不是具体里面出现的数学。

吴恩达：对，很棒，我没发现之前遗忘了这点。

Pieter Abbeel：是的，这是其中一件，除了大多数人在问的，哪一个Andrew给的意见，一直在影响你，是确保你能看到这种关联性。

吴恩达：你已经并且会继续在AI领域有很棒的职业前途，对一些在看视频的人，要是他们想入门AI，你有什么意见。

Pieter Abbeel：我想现在是进入AI的大好时机（I think it’s a really good time to get into artificial intelligence）。需求量是如此之高，工作机会如此之多，有大量研究课题，也有大量创业机会等等。所以我很肯定决定入行是很机智的决定，你们中的大多数都能够自学，不管是不是在学校里，有好多好多网课，比如Andrew的机器学习课，也有，比如说，Andrej Karpathy的深度学习课，也有线上视频，作为开始很棒，Berkeley也有增强学习的课程，所有课都在网上，都是很棒的入门方式。很重要的是，你自己要真正着手去做（make sure you try things yourself），不是只看看视频，要亲自试，可以用TensorFlow，Chainer，Theano，PyTorch等等，随便你喜欢哪个，开始是很容易的，进展也会很快。

吴恩达：只要不断练习，对不，实际操作并关注什么成功了，什么没成功。

Pieter Abbeel：Mashable上周有篇文章，讲一个英国16岁，Kaggle比赛中的领导，里面提到他跑去学习，在网上找到东西，自学了一切，从未上过任何正统课程，一个16岁的少年能在Kaggle上有这么强的竞争力，说明是真的可能。

吴恩达：我们生在好时代，对人们学习的好时代（We live in good times. If people want to learn）。

Pieter Abbeel：完全正确。

吴恩达：还有个应该常被问到的问题是，要是有人想进入AI机器学习，深度学习的领域，他们该读博还是去大公司工作。

Pieter Abbeel：很大程度上取决于你能得到的指导（I think a lot of it has to do with maybe how much mentoring you can get.）。在博士学位里，基本肯定的，是教授的本职工作，也是你的导师，会来主动找你，竭尽他们所能去成就你，帮助你在任何领域，比如AI，得到成功，有很多用功的人，有时会有两个导师，那是他们的本职工作，也是为什么他们当了教授，大多数教授都能帮助学生做更多事情。但不是说在公司里不是这样，很多公司有很棒的导师并且很爱帮助教育和推进其他人等等。只不过是，可能不会有那样的保障，不会像攻读博士一样，而博士的一大优点，就是你肯定能学到好多并且总有人能帮助你学习。

吴恩达：取决于公司和博士项目本身。

Pieter Abbeel：完全正确，但是我想，主要还是得自己能学很多东西（it is key that you can learn a lot on your own）。要是自学的很快，再加上一个更有经验的人，能加速过程，因为他们的职责就是帮助推进你的进步。

吴恩达：你是深度增强学习中很有名的领袖之一，那么是什么样的东西，在深度增强学习中已经很成功了。

Pieter Abbeel：关注深度增强学习中的成功例子，非常非常引人入胜，比如说，通过像素学习玩Atari，处理像素也就是被处理的数字，被变成一个游戏中的行动。然后，举个例子，我们在Berkeley做过的一些研究，造了会走路也有回馈的模仿型机器人，只是简单的告诉它越往北走越好，对地面影响越小越好，它突然会选择，走路或跑步，即使并没有人告诉它什么是走和跑，或让机器人学讲给儿童的故事，并想法子组在一起，创造更多开放结局等等。

我认为有趣的是，它们能学习，从原始的感觉输入到控制。比如发动机中的扭矩，但是是同时完成的，有趣在于你能用一个单一算法，比如，推力是一瞬间的（thrust is impulsive），你可以学习，可以让机器人学会跑，学会站立，可以有两条腿的机器人，再换成四条腿的，只要用同样的算法，它都会跑，所以增强算法不用改变，非常宏观，Atari游戏也是如此，每个游戏里DQN都是同一个DQN。当它开始进入，还未曾实现的边界后，它能为每一个任务从头一点点学起，但要是能重复利用，之前学过的东西，更好了，那样学下一个任务就更快了，这是目前未能实现的事情，本质上，它总是从头学起。

吴恩达：你觉得多快，就能看到使用深度增强学习的机器人，出现在我们身边，被广泛应用在全世界。

Pieter Abbeel：我认为真实情况是，从监督学习开始，行为克隆，人类的工作。我觉得会有很多业务会建立起来，但总是有人类在幕后指挥工作，比如Facebook的信息助手，像这样的助手能被建起，但背后一定有人，做大量工作，机器学习能做人所做的事，并开始为人们提建议，人类会被提供，有限的几个选择，过一阵子，就能变得更好，可以给增强学习，一些实际目的，而不是让人在幕后工作，是实际给它们目标去完成。比如，两者中哪个能更快计划好会议，或多快能定好机票，或是花了多长时间，满意程度如何，不过可能会需要大量克隆人类行为的引导程序，去告诉它们怎么做。

吴恩达：听起来行为克隆：是监督学习，去模仿人在做的事，之后逐渐增强学习会能思考的更长远，这样总结合适吗？

Pieter Abbeel：我觉得是，单因为观察增强学习，从头开始，就很有意思，超级有趣，很少有比观察增强学习机器人从啥都不会到发明创造更好玩的事了，不过非常耗时，而且不总是那么安全。

吴恩达：太谢谢你了，这个采访太棒了，我很荣幸我们有这次聊天机会。

Pieter Abbeel：谢谢你邀请我，我非常感谢。

总结：（1）不管是选择读博还是进入大公司，主要还是得自己能学很多东西（it is key that you can learn a lot on your own）。要是自学的很快，再加上一个更有经验的人，能加速过程，因为他们的职责就是帮助推进你的进步。

（2）我想现在是进入AI的大好时机（I think it’s a really good time to get into artificial intelligence）。需求量是如此之高，工作机会如此之多，有大量研究课题，也有大量创业机会等等。很重要的是，你自己要真正着手去做（make sure you try things yourself），不是只看看视频，要亲自试，可以用TensorFlow，Chainer，Theano，PyTorch等等，随便你喜欢哪个，开始是很容易的，进展也会很快。

说明：记录学习笔记，如果错误欢迎指正！转载请联系我。

【人工智能行业大师访谈2】吴恩达采访 Pieter Abbeel

猜你喜欢