深度强化学习cs294 Lecture1: Introduction and Course Overview


第一次看到了该做hw1,然后被吓退。而今卷土重来,一定好好上完23333

强化学习介绍

当我们要建立一个智能系统的时候需要考虑什么?比如在一艘远洋巨轮上,我们有很好的航行系统和算法,但是上面依然需要人类船员。因为需要修复一些引擎的损坏,处理很多非常复杂的问题。这些问题目前还无法完全用智能系统自动完成。

目前我们拥有深度学习。深度学习能够帮我们直接从非结构化的环境里提取有用的信息。我们也有强化学习,强化学习能够为采取行为提供一个处理机制。所以什么是深度强化学习,为什么我们要关注它呢?

传统的处理图像的算法可能是通过手动设计特征,级联之后放到分类器之中。这很复杂而且繁琐。但是有了深度学习,直接有了一个端到端的解决方式,特征的提取直接用深度学习就可以解决。

而普通的强化学习也是通过设计特征,加上更多的特征,然后传到一个线性的策略或是值函数中得到动作。而深度强化学习可以直接通过一个端到端的方式从原始场景里直接得出动作。

对于一个序列的决策过程,端到端的学习意味着什么?假如一个类人的智能体看到丛林中可能有个老虎,普通的方式是先对看到的东西进行一个分类,然后用另一个网络来决策做什么动作。但是端到端的方式是,通过对感知到的信息直接处理得到一个动作。

比如ppt上面的两个控制机器人的例子,都可以直接从原始的图像中得出对于电机控制的命令。

深度学习赋予了强化学习能够端到端地处理复杂问题的能力。比如一个仿真砸钉子的例子,有时候还能从问题里学到一些意想不到的解决方案,还有一个很有意思的解决交通拥堵的例子。

为什么现在学习深度强化学习

  1. 深度学习最近有了大的发展
  2. 强化学习也有了很大的发展
  3. 计算能力的大大提升

现在很多的理论都不是什么新的东西。比如他提到的1993年的一篇论文里的一些想法,都依然是目前最前沿的研究方向。

还有很多有意思的案例比如:atari游戏、实际控制机器人,alphago程序等等,这些本课程里都有可能涉及。

序列决策需要解决的其他问题

基本的强化学习会学习使用最大化reward的算法。但是对于序列决策问题来说,这样做并不是唯一的方式。本门课还会讲到一些其它的高级课题比如:

  • 从例子里学习reward函数(inverse RL)
  • 在不同领域迁移知识(迁移学习,元学习)
  • 学习预测以及利用预测来做动作

reward从哪里来

很多问题里的reward很容易得到,比如游戏里。很多问题里却很难设计,而且不知道如何设计。实际生活中可能有的reward人生中只有一次。比如一个豹子追羚羊的时候,羚羊可能只有一次接收反馈的机会。人脑中也有很多关于反馈的机制。

其他类型的监督学习

  • 从示例中学习
    • 直接复制观察到的动作
    • 从观察到的动作中推断反馈(IRL)
  • 从观察世界中学习
    • 学习预测
    • 非监督学习
  • 从其它任务中学习
    • 迁移学习
    • 元学习

我们如何建立智能系统

有的能力我们都可以轻易做到,有的能力必须好好学习。我们可以学会很多事情,包括非常复杂的。尽管我们的学习机制基本上能够学会所有和智能有关的东西,但有时候一些硬编码的程序也有很大的作用。

建立系统时面临一个选择,是对于每一个功能都写一个算法还是只用一个算法来学习所有的能力。ppt中降到很多关于人脑的研究,可以看出的是人脑中的机制有可能是只有一种,但是可以处理各种各样的外界信息。

假如我们只使用一个单个算法来建立一个智能系统,那么它需要完成对于输入信号的处理工作以及复杂的决策功能。这就是我们需要深度强化学习的理由。深度表明我们能够处理复杂的信号输入,而强化学习帮助我们做复杂的决策。

有的研究表明深度学习处理的感知信号得到的特征与生物脑中的很接近。而强化学习也和人脑的很多机制很相似。

目前深度学习和强化学习可以做到:

  • 在简单已知的领域中训练出非常高程度的能力如围棋
  • 如果给了足够多的信息,能够从原始感知信号学到简单的技能
  • 通过模仿提供的人类专家行为学习

目前还非常困难的问题有:

  • 人类可以学得非常快,但算法还不行
  • 人类可以利用过往经验,迁移学习还是个开放问题
  • 不知道反馈函数的设计
  • 不清楚预测该做的角色

猜你喜欢

转载自blog.csdn.net/qq_25037903/article/details/84332028