Reinforcement Learning, Fast and Slow

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

1 DeepMind, London, UK
2 University College London, London, UK
3 Princeton University, Princeton, NJ, USA
*Correspondence: [email protected] (M. Botvinick).

Trends in Cognitive Sciences, May 2019, Vol. 23, No. 5 https://doi.org/10.1016/j.tics.2019.02.006
© 2019 The Authors. Published by Elsevier Ltd. This is an open access article under the CC BY license (http://creativecommons.org/licenses/by/4.0/).

  近年来,深度强化学习(RL)方法在人工智能方面取得了令人瞩目的进步,在从Atari到Go到无限制扑克等领域都超过了人类的性能。这一进展引起了对了解人类学习感兴趣的认知科学家的关注。但是,人们一直担心,深度RL的样本效率可能太低——也就是说,它可能太慢——无法为人类学习提供一个合理的模型。在本综述中,我们通过描述最近开发的技术来反驳这种批评,这些技术使深度RL能够更灵活地运行,比以前的方法更快地解决问题。尽管这些技术是在AI环境中开发的,但我们提出它们可能会对心理学和神经科学产生深远的影响。这些AI方法产生的关键见解涉及快速RL和较慢的更多增量学习形式之间的基本联系。

Highlights

  最近的AI研究已经产生了用于深度强化学习的强大技术。在将表征学习与奖励驱动行为结合起来时,深度强化学习似乎对心理学和神经科学具有内在的兴趣。
  一种保留意见是,深度强化学习程序需要大量的训练数据,这表明这些算法可能从根本上与基于人类学习的算法不同。
  尽管这种担忧适用于深度RL技术的最初浪潮,但随后的AI工作已经建立了使深度RL系统能够更快且更高效地学习的方法。两种特别有趣且有前途的技术分别集中在episodic记忆和元学习上。
  除了作为AI技术的兴趣外,利用episodic记忆和元学习的深度RL方法对心理学和神经科学具有直接而有趣的意义。这些技术引起关注的一个微妙但至关重要的见解是快速和慢速学习形式之间的基本联系。

Glossary

  • 深度神经网络:具有一个或(通常)多个隐含层的神经网络。
  • 嵌入:位于神经网络层中学到的表示。
  • 隐含层:输入和输出层之间的神经网络层。
  • 神经网络:一组可学习的权重和偏差,它们以分层的形式排列,这些层处理输入以产生输出。要了解更多信息,请参阅McClelland and Rumelhart[105]的开创性入门材料。
  • 非参数:在非参数模型中,参数的数量不是固定的,并且可以随着向模型提供的更多数据而增加。
  • 循环神经网络:在序列的每个时间步骤中运行的神经网络,将其隐含层激活从每个步骤传递到下一个步骤。

Box 1. Deep Reinforcement Learning

  RL集中于学习行为策略,从状态或情况到动作的映射问题,这可以最大化累积长期奖励[12]。在简单的设置中,该策略可以表示为查找表,列出针对任何状态的适当动作。但是,在更丰富的环境中,这种简单的列表是不可行的,因此必须将策略隐式编码为参数化函数。1990年代的开拓性工作表明,可以使用多层(或深度)神经网络来逼近此函数([78],L.J. Lin,博士学位论文,卡内基梅隆大学,1993),允许梯度下降学习发现丰富的从感知输入到动作的非线性映射(请参阅面板A及以下)。但是,直到2015年,技术挑战才阻止将深度神经网络与RL集成,当时突破性的工作证明了可以使RL在诸如Atari视频游戏等复杂领域工作的程度[13](请参见图IB及以下)。 从那时起,在改进和扩展深度RL [79]方面取得了迅速的进展,使其可以应用于复杂的任务域,例如Go [16]和Capture Flag [80]。 在许多情况下,后来的发展涉及将深度RL与体系结构和算法补全相集成,例如树搜索[16]或基于时隙的类似事件的存储器[52](请参见图IC及其下面)。 其他进展集中在学习速度的目标上,使深度学习RL仅根据一些观察就可以取得进展,如正文中所述。
  该图说明了深层RL方法的演变,从图A开始,是Tesauro突破性的步步高演奏系统“ TD-gammon” [78]。 这是以神经网络为中心的,该神经网络以棋盘的表示形式作为输入,并学会输出“状态值”的估计值,状态值定义为预期的未来累积累积奖励,这里的值等于最终从当前赢下游戏的估计概率。 位置。 面板B显示了Mnih及其同事报告的Atari播放DQN网络[13]。在这里,卷积神经网络(见[3])将屏幕像素作为输入并学习输出操纵杆动作。 C板显示了Wayne及其同事报道的最先进的深层RL系统[51]。此RL智能体的详细“接线”的完整描述不在本文讨论范围内(但可以在[51]中找到)。但是,如图所示,该体系结构包含多个模块,包括一个神经网络,该神经网络利用类似事件的记忆来预测即将发生的事件,它与增强学习模块“对话”,该模块根据预测器模块的当前状态选择动作。 该系统除其他任务外,还将学习在迷宫般的环境中执行目标导向的导航,如图I所示。

Powerful but Slow: The First Wave of Deep RL

  在过去的几年中,人工智能(AI)研究取得了革命性的进步,其中神经网络或“深度学习”方法[1,2]的复兴推动了图像理解[3,4],自然语言处理[5,6]等许多其他领域的突破。这些发展吸引了心理学家,心理语言学家和神经科学家的兴趣,他们对AI的发展是否会提出有关人类认知和脑功能的新假设感到好奇[7-11]。
  从这个角度来看,AI研究的一个特别吸引人的领域是深度RL(Box 1)。深度RL将神经网络建模(请参阅Glossary)与强化学习相结合,强化学习是一种从奖励和惩罚而不是从更明确的指导中学习的方法[12]。数十年来,深度RL作为一种有前途而非实际的想法,在过去的5年中已发展成为AI研究最密集的领域之一,在从视频游戏[13]到扑克[14],多人游戏比赛[15]和复杂的棋盘游戏,包括围棋和象棋[16-19]的任务中产生了超出人类的性能。 

  除了作为AI主题固有的兴趣之外,深度RL似乎对心理学和神经科学也具有特殊的兴趣。深度RL中驱动学习的机制最初是受到动物条​​件研究的启发[20],并且被认为与以多巴胺为中心的基于奖励的学习的神经机制密切相关[21]。同时,深度RL利用神经网络来学习强大的表示,这些表示支持泛化和迁移以及生物大脑的关键能力。有了这些联系,深度RL似乎可以为对人类和动物学习感兴趣的研究人员在行为和神经科学层面提供丰富的想法和假设来源。实际上,研究人员已经开始注意到[7,8]。

  同时,对第一波深度RL研究的评论也听起来有些谨慎。乍一看,深度RL系统的学习方式与人类完全不同。有人争辩说,这种差异的特点在于人类学习与深度RL的样本效率。样本效率是指学习系统达到任何选定的目标性能水平所需的数据量。通过这种措施,深度学习RL系统的最初浪潮确实与人类学习者明显不同。为了在Atari电子游戏或国际象棋等任务上达到人类专家水平的性能,深度RL系统比人类专家本身需要更多数量级的训练数据[22]。简而言之,深度RL,至少在其最初的版本中,似乎太慢了,无法为人类学习提供合理的模型。所以争论已经过去了[23,24]。

  这种批评确实适用于第一波深度RL方法,该方法于2013年左右开始报道(例如[25])。但是,即使在此之后的很短时间内,深度RL研究仍发生了重要的创新,这表明如何可以大大提高深度RL的样本效率。这些方法减轻了深度RL对大量训练数据的原始需求,有效地提高了深度RL的速度。这些计算技术的出现使深度RL成为人类学习的候选模型以及心理学和神经科学洞察力的源泉。

  在本文中,我们考虑了缓解样本效率问题的两种关键的深度RL方法:episodic深度RL和元RL。我们研究了这些技术如何实现快速深度RL,并考虑了它们对心理学和神经科学的潜在影响。

Sources of Slowness in Deep RL

  考虑快速RL技术的关键出发点是研究为什么深度RL的初始方法实际上如此缓慢。在这里,我们描述了样本效率低下的两个主要来源。在本文的结尾,我们将回头研究这两个概念所描述的问题之间的联系。

  深度RL缓慢的第一个原因是对增量参数进行调整的要求。最初的深度RL方法(在AI研究中仍然非常广泛地使用)采用梯度下降来塑造从感知输入到动作输出的深度神经网络映射的连通性(Box 1)。正如不仅在AI而且在心理学[26]中已经广泛讨论的那样,在这种学习形式期间所做的调整必须很小,以便最大化泛化[27]并避免覆盖早期学习的效果(有时将这种效果被称为“灾难性干扰”)。对学习中的小步长的需求是最初为深度RL提出的方法缓慢的一个原因。

猜你喜欢

转载自www.cnblogs.com/lucifer1997/p/13384557.html