2019年伯克利大学 CS294-112《深度强化学习》第1讲：课程介绍和概览（笔记)

在这里插入图片描述
这里是CS294-112深度强化学习课程，我的名字叫Sergey Levine是这门课的授课老师，材料会放在课程主页：http://rail.eecs.berkeley.edu/deeprlcourse

这是一门高级研究生课程，课程是针对那些准备在深度学习和强化学习领域做研究的学生准备的，主要针对博士。你需要保证达到这门课的先修条件，希望上过研究生或者高级本科生课程、机器学习课程，如果是UCB的学生那么应该上过CS189 CS289 CS281A之类的课。除了之前说的先修条件，还要知道一些东西，因为课程作业中很多会涉及训练神经网络，通过自动微分框架，提供的所有基础代码都是TensorFlow版的。希望有python编程经验，Greg Khan会上一堂关于TensorFlow和自动微分的课。

这是要讲的主要内容在这里插入图片描述

完整的内容在课程网站上。会介绍如何从监督学习过渡到决策问题？监督学习是在之前机器学习课程中学过的概念。

会谈到怎么转换决策问题？还会谈到模仿学习，会谈到主要的model-free的算法，比如Q-learning、策略梯度、演员批判家算法等等。然后会聊到model-based强化学习和一些高级话题，以及用model-based RL来对视频帧预测的问题。还会讲到exploration（一个RL概念），到时候会接触到很多最近关于exploration的进展，还会讲到很多高级话题，比如迁移学习、多任务学习和元学习。到课程结束的时候，会对一些开放问题进行探讨，还会请其他RL研究者来做研究报告和一些邀请讲座等等。所以这道课程结束，当你在做最后的课程项目时，会听到很多高级话题，从而对你的项目要做什么东西有一些启发。

作业
在这里插入图片描述
第一次内容是模仿学习，第二次内容是要实现策略梯度算法，第三次内容是实现演员-批判家算法，第四次会考察model-based类的RL算法，然后最后一次作业会有一些选择，可能是实现一些后面讲到的高级算法，然后是最后的项目是研究级别的，所以如果有研究生已经做过一些这种领域的研究工作，而且级别相当于ICML或NIPS的workshop paper。

开始今天的课程，也就是强化学习的简要介绍
在这里插入图片描述
从通常说的深度强化学习或强化学习的概念开始，然后是为什么要研究它？尤其是为什么现在要研究它？所以现在要提一个宽一点的问题，然后才是关于深度强化学习，那么这个问题就是如何构建智能机器？
在这里插入图片描述
更值得思考的问题是现在的科技还需要做什么事情或者说还有什么问题要解决才能离智能机器人更近一些。考虑一个具体智能机器的例子，来思考现在可以做到什么。

船可以从地球的一端航行到地球的另一端，这个在今天不难实现，可以实现相应的软件来让这么大的邮轮从地球的一端航行到另一端，而且不需要任何机器学习技术，现有的技术就已经能做到了，但是还没有做到这么大的邮轮实现无人化，因为也会有出故障的时候，还是得有人去检查引擎，用手掰紧阀门等等。在人工智能还没有那么完备的时候，不得不处理物理性的接触、视觉识别上的复杂性和环境的多样性，还有所有现实生活中会发生的突发性，这就需要很好的扩展性和适应性。虽然对于计算、快速响应、复杂规划，没什么问题，但是刚刚说的这些问题还是不能解决。通常情况下，所说的真正挑战是关于环境的复杂性、多样性、物理接触、视觉变化等等，这些都是类似场景下可能出现的问题。
在这里插入图片描述
所以深度学习的好处就是它提供了一种处理非结构化环境的工具。非结构化的意思是你不能提前预测环境中所有东西的布局，例如那邮轮的例子来说，不像世界地图一样，每天都会发生变化，因为随着时间的推移，物体会移动，这和邮轮的规划算法相关的。但是对于引擎室里的个人操作，比如有人在地上泼了点水或类似的事情，在任何时间都有可能发生任何类似的无法预料的事情。

所以深度学习可以帮助我们处理这种非结构化的环境。通过构建复杂而强大的、可以处理原始的传感器信息的模型。比如可以构建一个有上百万参数的神经网络，就可以直接输入图像的原始像素信息，而不用担心是不是有人已经提取出了正确的特征，只需要输入原始像素，然后就能检测出图片中有什么。可以用这个模型检测ImageNet数据集中上千种不同种类的图片，文字识别、语音识别等等。所有这些任务都显示出了现实世界中的多样性和复杂性。比如对于语言识别，困难之处是不能简单的靠语法，因为不同的人说话的方式都有一点不同，所以还要考虑很多复杂的情况。

2019年伯克利大学 CS294-112《深度强化学习》第1讲：课程介绍和概览（笔记)

猜你喜欢