Reinforcement learning——an introduction强化学习翻译1.1节

Chapter 1

Introduction

​ 当我们思考学习的本质时,我们可能第一次想到通过与环境互动来学习的想法。当婴儿玩耍、挥舞手臂或四处张望时,他没有明确的老师,但他确实与周围环境有着直接的感觉运动联系。运用这种联系可以产生大量关于原因和作用等的信息,关于行动的后果,以及为了实现目标应该做什么的信息。在我们的一生中,这种互动无疑是我们了解环境和我们自己的主要来源。无论我们是在学习开车还是交谈,我们都会敏锐地意识到我们的环境是如何对我们所做的事情做出反应的,我们试图通过我们的行为来影响所发生的事情。从互动中学习是几乎所有学习和智力理论的基础思想。

​ 在这本书中,我们探索了一种从交互中学习的计算方法。我们主要探索理想化的学习环境,并评估各种学习的有效性,而不是直接从理论上解释人或动物是如何学习的方法人工智能研究人员或工程师。我们探索机器的设计,旨在解决科学或经济利益的学习问题,通过数学分析或计算实验评估设计。我们探索的方法称为强化学习,它比其他机器学习方法更注重目标导向的交互学习。

1.1 Reinforcement Learning

​ 强化学习是学习如何将情境映射到行动,从而最大限度地获得一个数字奖励信号。学习者没有被告知要采取哪些行动,而是必须通过尝试发现哪些行动能产生最大的回报。在最有趣和最具挑战性的情况下,行动不仅可以获得直接的回报,也可以影响到下一个情况,并通过它获得所有后续的回报。这两个特征是反复搜索和延迟奖励是强化学习的两个最重要的特征。

​ 强化学习,像许多名称以“ing”结尾的主题一样,如机器学习和登山,同时也是一个问题,一类对问题有效的解决方法,以及研究这个问题及其解决方法的领域。对这三件事使用一个名字是很方便的,但同时也必须使这三件事在概念上分开。特别是,在强化学习中,问题和解决方法的区别是非常重要的;未能区分问题和解决方法是许多困惑的根源。

​ 我们利用动态系统理论的思想,将强化学习问题形式化,特别地,作为不完全已知的马尔可夫决策过程的最优控制。这种形式化的细节必须等到第3章,但基本思想是简单地捕捉学习智能体在与环境交互以实现目标时所面临的实际问题的最重要方面。学习智能体必须能够在一定程度上感知其环境的状态,并且必须能够采取与状态相关的操作。智能体还必须有一个或多个与环境状态有关的目标。马尔可夫决策过程旨在以最简单的形式包含这三个方面,即感觉、行动和目标,而不使它们变得微不足道。任何适合解决这类问题的方法我们都认为是强化学习方法。

​ 强化学习不同于监督学习,监督学习是机器学习领域最新研究的一种学习。监督学习是从一个知识渊博的外部主管所提供的一组有标签的例子中学习。说明了一种情况下,每一种情况下都应该采取一种措施来说明这种情况。这种学习的目的是让系统外推或概括其响应,以便在训练集中不存在的情况下正确地运行。这是一种重要的学习方式,但仅此一项还不足以从互动中学习。在交互问题中,要获得所需行为的例子,既正确又能代表智能体必须采取行动的所有情况,这通常是不切实际的。在一个未知的领域,一个期望学习是最有益的智能体必须能够从自己的经验中学习。

​ 强化学习也不同于机器学习研究人员所称的无监督学习,后者通常是寻找隐藏在未标记数据集合中的结构。“监督学习”和“无监督学习”这两个术语似乎对机器学习范式进行了详尽的分类,但事实并非如此。虽然强化学习不依赖正确行为的例子,可能会被认为是一种无监督的学习,但强化学习是试图最大化奖励信号,而不是试图寻找隐藏的结构。揭示主体经验中的结构在强化学习中肯定是有用的,但其本身并不能解决使奖励信号最大化的强化学习问题。因此,我们认为强化学习是第三种机器学习范式,除了有监督学习和无监督学习,也许还有其他范式。

​ 强化学习(而非其他类型的学习)所面临的挑战之一是探索与开发之间的权衡。为了获得大量的奖励,强化学习智能体必须喜欢它过去尝试过并发现能够产生奖励的行为。但要发现这样的行为,它必须尝试以前从未选择过的行动。为了获得奖励,智能体必须利用自己已经经历过的事情,但也必须进行探索,以便在未来做出更好的行动选择。目前的困境是,无论是探索还是开发,都不可能在没有完成任务的情况下单独进行。智能体必须尝试各种各样的行动,并逐步倾向于那些看起来最好的。在一个随机任务中,每一个动作都必须经过多次尝试才能获得对其预期回报的可靠估计。几十年来,数学家们对探索与开发的困境进行了深入研究,但仍未解决。现在,我们只需指出,在有监督和无监督的学习中,平衡探索和开发的整个问题都不会出现,至少在这些范式的最纯粹形式中是如此。

​ 与环境交互作用的另一个关键特征被明确地认为是整体学习问题。这与许多考虑子问题的方法不同,这些方法没有考虑子问题如何适应更大的情况。例如,我们曾经提到过,许多机器学习研究人员研究过监督学习,但没有具体说明这种能力最终如何有用。其他的研究者已经发展了具有一般目标的规划理论,但没有考虑规划在实时决策中的作用,也没有考虑规划所需的预测模型从何而来的问题。尽管这些方法已经产生了许多有用的结果,但它们对孤立的子问题的关注是一个重大的局限性。

​ 强化学习则采取了相反的策略,从一个完整的、交互式的、寻求目标的主体开始。所有的强化学习主体都有明确的目标,能够感知环境的各个方面,并且能够选择行动来影响环境。此外,通常从一开始就假定智能体必须在其所面临的环境有重大不确定性的情况下运作。当强化学习涉及规划时,它必须解决规划和实时行动选择之间的相互作用,以及环境模型是如何获得和改进的问题。当强化学习涉及到监督学习时,它是基于特定的原因来决定哪些能力是关键的,哪些不是。为了使学习研究取得进展,重要的子问题必须被孤立和研究,但它们应该是在完整的、交互式的、目标寻求主体中发挥明确作用的子问题,即使完整主体的所有细节还不能被填写。

​ 我们所说的一个完整的、互动性的、寻求目标的智能体并不总是指一个完整的有机体或机器人。这些都是明显的例子,但一个完整的、交互式的、目标寻找智能体也可以是一个更大的行为系统的一个组成部分。在这种情况下,智能体直接与较大系统的其他部分交互,并间接与较大系统的环境交互。一个简单的例子是,一个智能体监控机器人电池的充电水平,并向机器人的控制架构发送命令。这个agent的环境是机器人的其余部分和机器人的环境。重要的是看超越最明显的例子的主体及其环境,以欣赏强化学习框架的普遍性。

​ 现代强化学习最令人兴奋的方面之一是它与其他工程和科学学科的实质性和富有成效的互动。强化学习是人工智能和机器学习与统计、优化和其他数学学科更大整合的几十年趋势的一部分。例如,一些强化学习方法使用参数化近似器学习的能力解决了运筹学和控制理论中经典的“维数灾难”。更显著的是,强化学习也与心理学和神经科学产生了强烈的互动,两者都有实质性的好处。在所有形式的机器学习中,强化学习最接近人类和其他动物的学习方式,许多强化学习的核心算法最初都是受到生物学习系统的启发。强化学习也得到了回报,一方面是通过动物学习的心理学模型,另一方面是通过一个对大脑奖赏系统部分的有影响力的模型来实现的,这一模型能更好地匹配一些经验数据。这本书的正文发展了强化学习的思想,它与工程和人工智能有关,与心理学和神经科学的联系在第14章和第15章中进行了总结。

​ 最后,强化学习也是人工智能回归简单一般原则的大趋势的一部分。自20世纪60年代末以来,许多人工智能研究人员认为,没有一般性的原理可以被发现,相反,智能是由于拥有大量特殊用途的技巧、程序和启发式方法。有时有人说,如果我们能把足够多的相关事实输入到一台机器中,比如说一百万,或者十亿,那么它就会变得智能化。基于一般原则的方法,如搜索或学习,被称为“弱方法”,而基于特定知识的方法被称为“强方法”。这种观点在今天并不常见。从我们的观点来看,这还为时过早:对一般原则的研究太少,因此得出结论认为根本没有原则。现代人工智能现在包括许多研究,寻找学习、搜索和决策的一般原则。目前尚不清楚钟摆将摆回多远,但强化学习研究无疑是朝着更简单、更少一般人工智能原理的方向发展的一部分。

猜你喜欢

转载自blog.csdn.net/wangyifan123456zz/article/details/107380938