强化学习综述

作者:Michael L. Littman等

摘要

这篇文章从计算机科学的角度对强化学习这一领域进行了研究,并且尽量写的让熟悉机器学习的相关研究者能够较为容易的读懂。我们研究了强化学习这一领域历史上的基础,也广泛总结了当今研究的主流选择。强化学习是关于智能体通过与动态环境进行不断交互,从而在“尝试-错误”过程中学习正确行为的问题。这篇文章与心理学上的研究有一定的关系,但更值得注意的是,这里的强化与心理学上的强化是很不一样的。这篇文章主要讨论强化学习,包括探索与利用的权衡、通过马尔科夫决策理论(Markove decision theory)建立该领域的基础、通过延迟奖励进行学习、构建经验模型加速学习、标准化与结构化、处理隐藏状态等。文章结尾对几个已经实现了的强化学习系统的的综述以及目前可用的模型进行了评估。

1 引言

强化学习最早可以追溯到早期控制论以及统计、心理学、神经科学、计算机科学等学科的一些研究。在最近的五到十年中,强化学习在机器学习和人工智能研究者中得到了大量的关注,它描绘了一种在不进行具体指导的情况下通过对智能体进行奖励与惩罚而完成任务的编程方式。但是完成这一想法有着巨大的计算困难。
这篇文章从计算机科学的角度对强化学习的研究历史和当前研究状况进行了综述。我们以较大的视角对强化学习这一领域进行了回顾,并对特定几个方法进行了详细的描述。当然,无法涉及该领域中所有出现过的重要方法,在有限的篇幅中难以做到。
强化学习是智能体通过与动态的环境进行“尝试-错误”式的交互而学习自己应该具有什么样的行为的问题。这里的描述与心理学有点相似,但是“强化”这一概念是很不一样的。强化学习中的“强化”应当理解为一类问题,而不是一系列的技巧。
主要存在两种解决强化学习问题的策略。第一种是搜索行为空间来找到在环境中表现最好的行为序列。这种方法在一般的算法和程序以及一些新的研究中都有用到(Schmidhuber,1996)。第二种是使用统计学和动态规划的方法建立不同环境状态(states)下采取不同动作(actions)的效用(utility)。这篇文章急乎乎只涉及第二种方法,因为这种方法利用了强化学习的特殊结构,而且是一般的最优化方法难以达到的。现在不清楚哪一类方法在什么样的场景下更有效。
这一节剩下部分主要建立符号说明并描述基本的强化学习模型。第二节介绍探索与利用之间的权衡以及解决最基本的我们想要最大化当前奖励的问题。第三节考虑更一般的问题,对于一些重要的奖励,可以在延迟到动作执行之后。第四节考虑经典的延迟奖励下强化学习的无模型算法:适应性启发评论者(adaptive heuristic critic)、 T D ( λ ) Q -learning。第五节

猜你喜欢

转载自blog.csdn.net/keypig_zz/article/details/81047623