Reinforcement learning——an introduction强化学习翻译1.7节

1.7 Early History of Reinforcement Learning

强化学习的早期历史有两条主线，既长又丰富，在现代强化学习相互交织之前，它们是独立追求的。其中一条线索是关于尝试和错误的学习，起源于动物学习心理学。这条线索贯穿了人工智能领域最早的一些工作，并在20世纪80年代早期导致了强化学习的复兴。第二条线索涉及最优控制问题及其利用值函数和动态规划的解决方案。在大多数情况下，这条线索并不涉及学习。这两个线程基本上是独立的，但在某种程度上变得相互关联，大约有三分之一，不太明显的线程关于时间差分方法，如本章的井字游戏例子中使用的线程。

这三条线索在20世纪80年代末汇合在一起，形成了我们在本书中介绍的强化学习的现代领域。在这段短暂的历史中，专注于试错学习的线索是我们最熟悉、最有发言权的。然而，在此之前，我们先简单地讨论一下最优控制线程。

“最优控制”一词在20世纪50年代末开始使用，用于描述设计控制器以最小化或最大化动态系统随时间变化的行为。1950年代中期，理查德·贝尔曼和其他人通过扩展19世纪汉密尔顿和雅各比的理论，提出了一种解决这个问题的方法。这种方法使用动力系统状态和值函数或“最优回报函数”的概念来定义一个函数方程，现在通常称为贝尔曼方程。通过求解这个方程来解决最优控制问题的一类方法被称为动态规划（Bellman，1957a）。Bellman（1957b）还引入了最优控制问题的离散随机版本，称为马尔可夫决策过程（MDPs）。ronaldhoward（1960）提出了mdp的策略迭代方法。所有这些都是现代强化学习理论和算法的基本要素。

动态规划被广泛认为是解决一般随机最优控制问题的唯一可行方法。它源于Bellman所说的“维度诅咒”，即其计算需求随着状态变量的数量呈指数级增长，但它仍然比其他任何一般方法更有效、更广泛地适用。自20世纪50年代末以来，动态规划得到了广泛的发展，包括对部分可观测mdp的扩展（Lovejoy，1991）、许多应用（White调查，1985、1988、1993）、近似方法（Rust调查，1996）和异步方法（Bertsekas，1982，1983）。许多优秀的动态规划现代处理方法可用（例如Bertsekas，2005，2012；Puterman，1994；Ross，1983；Whittle，1982，1983）。布赖森（1996）提供了一个权威的历史最优控制。

一方面，最优控制和动态规划之间的联系，另一方面，学习之间的联系很难被认识。我们无法确定造成这种分离的原因，但其主要原因很可能是所涉及的学科与其不同目标之间的分离。另一个原因可能是人们普遍认为动态规划是一种离线计算，本质上依赖于精确的系统模型和贝尔曼方程的解析解。此外，动态规划的最简单形式是向后进行的计算，这使得我们很难了解它如何参与到必须向前推进的学习过程中。动态规划中的一些最早的工作，如Bellman和Dreyfus（1959）的工作，现在可以归类为遵循学习方法。Witten（1977）的工作（下面讨论）肯定是学习和动态编程思想的结合。Werbos（1987）明确指出，动态规划和学习方法之间存在更大的相互关系，并且动态规划与理解神经和认知机制的相关性。对我们来说，动态规划方法与在线学习的完全整合直到1989年chriswatkins的工作才出现，他使用MDP形式主义来处理强化学习已经被广泛采用。从那时起，这些关系被许多研究者广泛地发展起来，特别是由Dimitri Bertsekas和John Tsitiklis（1996）提出的术语“神经动态规划”是指动态规划和人工神经网络的结合。目前使用的另一个术语是“近似动态规划”。这些不同的方法强调主题的不同方面，但它们都与强化学习一样，都有一个规避动态规划经典缺点的兴趣。

我们认为在最优控制中的所有工作在某种意义上也是强化学习的工作。我们将强化学习方法定义为解决强化学习问题的任何有效方法，现在可以清楚地看到，这些问题与最优控制问题密切相关，特别是随机最优控制问题，如MDP形式的问题。因此，我们必须将最优控制的求解方法，如动态规划，也看作是强化学习方法。因为几乎所有的传统方法都要求对系统有完整的知识才能被控制，所以说它们是强化学习的一部分有点不自然。另一方面，许多动态规划算法都是增量的和迭代的。和学习方法一样，它们通过连续的近似法逐渐得到正确的答案。正如我们在本书其余部分所展示的那样，这些相似之处远不止是表面现象。完全知识和不完全知识的理论和解决方法是如此紧密地联系在一起，以至于我们认为它们必须作为同一主题的一部分来考虑。

现在让我们回到另一条通向强化学习的现代领域的主线，即以试错学习为中心的线索。我们只讨论主要的联系点，在14.3节中更详细地讨论这个话题。根据美国心理学家R.S.Woodworth（1938）的观点，尝试和错误学习的思想可以追溯到19世纪50年代亚历山大·贝恩关于“摸索和实验”学习的讨论，更明确的说是英国的动物行为学家和心理学家康威·劳埃德·摩根1894年使用这个术语来描述他对动物的观察行为。爱德华·桑代克（Edward Thorndike）也许是第一个将试错学习的本质简洁地表达为学习原则的人：

在对同一种情况作出的几种反应中，在其他条件相同的情况下，伴随或紧随其后的是对动物的满足感，它们将更紧密地与情况联系在一起，因此，当这种情况再次发生时，它们将更有可能再次发生；那些伴随着或紧跟着动物感到不适的反应，在其他条件相同的情况下，它们与这种情况的联系就会减弱，这样，当这种情况再次发生时，它们就不太可能发生了。满足感或不适感越大，这种联系的加强或减弱就越大。（桑代克，1911年，第244页）

桑代克称之为“E等定律”，因为它描述了强化事件对选择动作倾向的影响。桑代克后来修改了这项定律，以便更好地解释动物学习的连续性数据（例如奖惩之间的差异），而各种形式的法律在学习理论家中引起了相当大的争议（例如，见Gallistel，2005；Herrnstein，1970；Kimble，16 Chapter 1:Introduction 1961，1967年；马祖，1994年）。尽管如此，一种或另一种形式的效果法则被广泛视为许多行为的基本原则（例如，Hilgard和Bower，1975；Dennett，1978；Campbell，1960；Cziko，1995）。它是克拉克·赫尔（1943、1952）有影响的学习理论和斯金纳（1938）有影响的实验方法的基础。

动物学习中的“强化”一词在桑代克表达效果法则之后就开始使用了，在1927年巴甫洛夫关于条件反射的专著的英文译本中首次出现在这种语境中（据我们所知）。巴甫洛夫将强化描述为动物接受刺激后行为模式的强化，即与另一刺激或反应具有适当时间关系的增强剂。一些心理学家将强化的概念扩展到包括行为的弱化和强化，并将强化的概念扩展到可能包括刺激的省略或终止。要被视为增强剂，增强或减弱必须在增强剂退出后持续；仅仅吸引动物的注意力或激发其行为而不产生持久变化的刺激不会被视为增强剂。

在计算机上实现试错学习的想法是关于人工智能可能性的最早思想之一。在1948年的一份报告中，艾伦·图灵描述了一种“快感-痛苦系统”的设计，该系统遵循效果法则：

当达到一个动作未确定的配置时，将对丢失的数据进行随机选择，并在描述中暂时输入适当的条目，然后应用。当一个疼痛刺激出现时，所有的试探性条目都被取消，当一个快乐刺激出现时，它们都被永久性地保留下来。（图灵，1948）

许多精巧的机电机器被建造出来，证明了特里兰误差学习。最早的可能是托马斯·罗斯（Thomas Ross，1933年）制造的机器，它能够在简单的迷宫中找到自己的路，并通过开关的设置记住路径。1951年，W·格雷·沃尔特（W.Grey Walter）制造了一种能够进行简单学习的“机械乌龟”（Walter，1950）的版本。1952年，克劳德·香农演示了一种名叫忒修斯的迷宫运行老鼠，它通过反复试验找到迷宫的路径，迷宫本身通过地板下的磁铁和继电器记住成功的方向（另见Shannon，1951）。J、 A.Deutsch（1954）描述了一种基于行为理论（Deutsch，1953）的迷宫求解机，它与基于模型的强化学习（第8章）有一些共同的特性。在他的博士论文中，Marvin Minsky（1954）讨论了强化学习的计算模型，并描述了他构建的一个由他称之为SNARCs（随机神经模拟强化计算器）的部件组成的模拟机器，旨在模拟大脑中可修改的突触连接（第15章）。网站控制网包含关于这些和许多其他机电学习机器的丰富信息。

建立机电学习机让位于对数字计算机编程来执行各种类型的学习，其中一些实现了试错学习。Farley和Clark（1954）描述了一种神经网络学习机器的数字模拟，这种机器通过反复试验学习。但是他们的兴趣很快就从试错学习转向了泛化和模式识别，也就是说，从强化学习转向监督学习（克拉克和法利，1955）。这就开始了对这些类型的学习之间关系的混乱。许多研究者似乎认为他们在研究强化学习，而实际上是在研究监督学习。例如，Rosenblatt（1962）和Widrow和Ho（1960）等人工神经网络先驱显然是受到强化学习的激励，他们使用奖惩语言，但他们研究的系统是适用于模式识别和感知学习的监督学习系统。研究人员甚至模糊了研究人员和今天的教科书之间的区别。例如，一些教科书使用了“特里兰误差”这个术语来描述从训练实例中学习的人工神经网络。这是一个可以理解的混淆，因为这些网络使用错误信息来更新连接权重，但这忽略了试错学习的本质特征，即在评估反馈的基础上选择行动，而不依赖于正确行动的知识。

在一定程度上，由于这些混淆，真正的试错学习的研究在20世纪60年代和70年代变得很少，尽管也有明显的例外。20世纪60年代，工程文献首次使用“强化”和“强化学习”来描述试错学习的工程应用（例如，Waltz和Fu，1965；Mendel，1966；Fu，1970；Mendel和McClaren，1970）。尤其具有影响力的是明斯基的论文“迈向人工智能的步骤”（Minsky，1961），该论文讨论了与试错学习相关的几个问题，包括预测、期望，以及他称之为复杂强化学习系统的基本学分分配问题：如何为成功分配学分在众多的决定中，可能涉及到制作它？在某种意义上，我们在这本书中讨论的所有方法都是为了解决这个问题。明斯基的论文今天很值得一读。

在接下来的几段中，我们将讨论60年代和70年代对真实试错学习的计算和理论研究相对忽视的一些其他例外和部分例外。

一个例外是新西兰研究人员约翰·安德烈的工作，他开发了一个名为STeLLA的系统，通过反复试验学习与环境的相互作用。这个系统包括一个世界的内部模型，以及后来的“内部独白”来处理隐藏状态的问题（Andreae，1963，1969；Andreae和Cashin，1969）。安德烈后来的工作（1977年）更强调向老师学习，但仍然包括尝试和错误的学习，产生新奇的事件是该系统的目标之一。这项工作的一个特点是“泄漏过程”，Andreae（1998）对此进行了更全面的阐述，它实现了一个与我们描述的备份更新操作类似的信用分配机制。不幸的是，他的开创性研究并不广为人知，也没有对随后的强化学习研究产生重大影响。最近的总结可用（Andreae，2017a，b）。

更具影响力的是唐纳德·米奇的作品。在1961年和1963年，他描述了一个简单的尝试和错误学习系统，学习如何玩井字游戏（或零和十字）称为威胁（火柴盒可教育的诺茨和十字架引擎）。它包括一个火柴盒为每个可能的游戏位置，每个火柴盒包含许多彩色珠子，不同的颜色为每个可能的移动从该位置。通过从火柴盒中随机抽取一颗与当前游戏位置相对应的珠子，可以确定威胁的移动。当游戏结束后，在游戏中用来奖励或惩罚威胁的决定的盒子里加入或移除珠子。Michie和Chambers（1968）描述了另一个tic-tac-toe强化学习器叫做GLEE（游戏学习预期模拟引擎）和一个名为box的强化学习控制器。他们将box应用于学习平衡一根用铰链连接到移动推车上的电杆的任务，根据只有当电杆掉落或推车到达轨道末端时才会出现的故障信号。这项任务改编自Widrow和Smith（1964年）的早期工作，他们使用监督学习方法，假设来自已经能够平衡杆位的老师的指导。Michie和Chambers的极点平衡是知识不完全条件下强化学习任务的早期最好例子之一。它影响了后来强化学习的工作，从我们自己的一些研究开始（Barto、Sutton和Anderson，1983；Sutton，1984）。米奇（1974）一贯强调试错和学习是人工智能的重要方面。

Widrow，Gupta，and Maitra（1973）对Widrow和Ho（1960）的最小均方（LMS）算法进行了改进，产生了一个强化学习规则，该规则可以从成功和失败信号中学习，而不是从训练示例中学习。他们将这种学习方式称为“选择性引导适应”，并将其描述为“与批评家一起学习”，而不是“与老师一起学习”。他们分析了这一规则，并展示了如何学习21点。这是Widrow对强化学习的一次孤立的尝试，他对监督学习的贡献更具影响力。我们对“批评家”一词的使用源于威德罗、古普塔和迈特拉的论文。Buchanan、Mitchell、Smith和Johnson（1978）在机器学习的背景下独立使用了“批评家”一词（另见Dieterich和Buchanan，1984），但对他们来说，批评家是一个专家系统，能够做的不仅仅是评估性能。

对现代线索学习和强化研究产生了更直接的影响。这些方法解决了一个非关联的，纯选择的学习问题，称为k臂赌博机，通过类比老虎机，或“单臂赌博机”，除了k杠杆（见第2章）。学习自动机是一种简单、低内存的机器，用于提高这些问题中的回报概率。学习自动机起源于20世纪60年代俄罗斯数学家和物理学家M.L.Tsetlin及其同事的工作（在Tsetlin死后出版，1973年），并在工程领域得到了广泛的发展（见Narendra和Thathachar，1974、1989）。这些发展包括随机学习自动机的研究，这是一种基于奖励信号更新行动概率的方法。Harth和Tzanakou（1974）的Alopex算法（用于模式提取算法）虽然不是在随机学习自动机的传统中发展起来的，但它是一种用于检测作用和强化之间相关性的随机方法，它影响了我们的一些早期研究（Barto、Sutton和Brouwer，1981）。随机学习自动机是早期心理学研究的先兆，从威廉·埃斯特斯（William Estes，1950）开始，走向学习的统计理论，并由其他人进一步发展（例如，Bush和Mosteller，1955；Sternberg，1963）。

心理学中发展起来的统计学习理论被经济学研究者所采用，导致了该领域的一系列研究致力于强化学习。这项工作始于1973年，将布什和莫斯特勒的学习理论应用于一系列经典经济模型（Cross，1973）。这项研究的一个目标是研究行为更像真实人的人工代理人，而不是传统的理想经济代理人（Arthur，1991）。这种方法扩展到博弈论背景下的强化学习研究。经济学中的强化学习在很大程度上独立于人工智能中强化学习的早期工作，尽管博弈论仍然是这两个领域感兴趣的话题（超出了本书的范围）。Camerer（2011）讨论了经济学中的强化学习传统，现在，e、Vrancx和De haware（2012）从多智能体扩展的角度对本书中介绍的方法进行了概述。博弈论背景下的强化学习与用于玩井字游戏、跳棋和其他娱乐游戏的强化学习有很大不同。关于Szita的学习方面，请参见Szita 2012年的学习概述。

johnholland（1975）概述了基于选择原则的自适应系统的一般理论。他早期的工作主要涉及非关联形式的尝试和错误，如进化方法和k武装强盗。1976年和1986年，他介绍了分类器系统，真正的强化学习系统，包括关联和值函数。Holland分类器系统的一个关键组成部分是用于信用分配的“bucket Budget算法”，它与我们在tic-tac-toe示例中使用的时间差分算法密切相关，并在第6章中进行了讨论。另一个关键组成部分是遗传算法，一种进化方法，其作用是进化有用的表示。分类器系统已经被许多研究者广泛开发，形成了强化学习研究的一个主要分支（Urbanowicz和Moore，2009年评论），但是我们并不认为自己是强化学习系统的遗传算法受到了更多的关注，其他进化方法也是如此计算（例如，Fogel、Owens和Walsh，1966；Koza，1992）。

在人工智能中恢复强化学习的反复尝试的人是Harry Klopf（1972年、1975年、1982年）。Klopf认识到，随着学习研究者几乎完全集中在监督学习上，适应性行为的基本方面正在消失。据Klopf所说，缺少的是行为的享乐方面：从环境中获得某种结果的驱动力，将环境控制在期望的目标上，远离不期望的目的（见第15.9节）。这是试错学习的基本思想。Klopf的思想对作者尤其有影响，因为我们对它们的评估（Barto和Sutton，1981a）使我们认识到监督学习和强化学习之间的区别，并最终将注意力集中在强化学习上。我们和同事完成的大部分早期工作旨在表明强化学习和监督学习确实是不同的（Barto、Sutton和Brouwer，1981；Barto和Sutton，1981b；Barto和Anandan，1985）。其他研究表明强化学习如何解决人工神经网络学习中的重要问题，特别是如何产生多层网络的学习算法（Barto，Anderson，and Sutton，1982；Barto and Anderson，1985；Barto，1985，1986；Barto和Jordan，1987；见第15.10节）。

我们现在转向强化学习的第三条线索，即关于时间差异学习的历史。时间差异学习方法的独特之处在于受相同数量的时间连续估计之间的差异驱动，例如，在tic-tac-toe示例中获胜的概率。这条线索比另外两条线索更小、更不明显，但它在该领域发挥了特别重要的作用，部分原因是时间差异方法似乎是强化学习的新方法和独特之处。

时间差异学习的起源部分来自动物学习心理学，特别是次级强化剂的概念。二级增强剂是一种刺激物，它与一级增强剂（如食物或疼痛）配对，因此具有类似的强化特性。明斯基（Minsky，1954）可能是第一个意识到这一心理学原理对人工学习系统的重要性的人。亚瑟·塞缪尔（Arthur Samuel，1959）是第一个提出并实施包括时间差异思想的学习方法的人，作为他著名的跳棋项目的一部分（第16.2节）。

Samuel没有提到Minsky的工作，也没有提到可能与动物学习有关。他的灵感显然来自克Claude Shannon（1950）的建议，即计算机可以被编程为使用一个评估函数来下棋，并且可以通过在线修改这个函数来改进其游戏。（有可能香农的这些想法也影响了贝尔曼，但我们不知道这一点的证据。）Minsky（1961）在他的“步骤”论文中广泛讨论了Samuel的工作，提出了与自然和人工的二次强化理论的联系。

正如我们已经讨论过的，在Minsky和Samuel的工作之后的十年中，很少有计算工作在尝试和错误学习上进行，而且显然在时间差异学习方面根本没有做任何计算工作。1972年，Klopf将试验和错误学习与时间差异学习的重要组成部分结合起来。Klopf对能够在大系统中进行学习的原理感兴趣，因此对局部强化的概念很感兴趣，即整个学习系统的子组件可以相互增强。他提出了“广义强化”的概念，即每个组成部分（名义上，每个神经元）都以强化的方式看待它的所有输入：兴奋性输入是奖励，抑制性输入是惩罚。这与我们现在所知的时间差分学习（temporal difference learning）的理念不同，回想起来，它比Samuel的作品离它更远。另一方面，Klopf将这种思想与尝试学习联系起来，并将其与动物学习心理学的大量经验数据库联系起来。

萨顿（1978a，b，c）进一步发展了Klopf的思想，特别是与动物学习理论的联系，描述了由时间连续预测变化驱动的学习规则。他和巴托改进了这些想法，并基于时间差异学习开发了经典条件反射的心理学模型（Sutton and Barto，1981a；Barto and Sutton，1982）。基于时间差异学习，还遵循了其他几种有影响力的经典条件反射心理学模型（例如，Klopf，1988；Moore等人，1986；Sutton和Barto，1987，1990）。此时开发的一些神经科学模型在时间差异学习方面得到了很好的解释（Hawkins and Kandel，1984；Byrne、Gingrich和Baxter，1990；Gelperin、Hopfield和Tank，1985；Tesauro，1986；Friston等人，1994），尽管在大多数情况下没有历史关联。

我们早期关于时间差异学习的研究受到动物学习理论和Klopf工作的强烈影响。与Minsky的“步骤”文件和Samuel的跳棋运动员的关系，直到后来才被确认。然而，到了1981年，我们已经完全意识到上述所有先前的工作是时间差异和试错线程的一部分。此时，我们开发了一种将时间差异学习与试错学习相结合的方法，称为演员-批评家架构，并将该方法应用于Michie和Chambers的极点平衡问题（Barto、Sutton和Anderson，1983）。这种方法在Sutton（1984）博士论文中得到了广泛的研究，并在Anderson（1986）博士论文中扩展到使用反向传播神经网络。在这段时间内，Holland（1986）以桶旅算法的形式将时间差异的思想明确地融入到他的分类器系统中。Sutton（1988）采取了关键步骤，将时间差分学习与控制分离，将其作为一般预测方法。本文还介绍了TD算法，并证明了它的一些收敛性。

1981年，当我们完成演员-批评家建筑的工作时，我们发现了伊恩·维滕（1977，1976a）的一篇论文，这篇论文似乎是时间差异学习规则的最早出版。他提出了我们现在称之为表格式TD（0）的方法，作为求解mdp的自适应控制器的一部分。这项研究于1974年首次提交期刊出版，也出现在维滕1976年的博士论文中。威顿的工作是安德烈早期对斯特拉和其他试错学习系统进行实验的后代。因此，Witten 1977年的论文跨越了强化学习研究、尝试和错误学习以及最优控制的主要线索，同时对时间差异学习做出了显著的早期贡献。

1989年，随着克里斯·沃特金斯（Chris Watkins）对Q-learning的发展，时间差分和最优控制线程完全结合在一起。本研究扩展并整合了强化学习研究的三条线索。paulwerbos（1987）从1977年起就主张尝试和错误学习与动态规划的融合。到Watkins工作时，强化学习的研究已经有了巨大的增长，主要是在人工智能的机器学习子领域，但也在人工神经网络和人工智能更广泛的领域。1992年，Gerry Tesauro的双陆棋游戏项目TD Gammon取得了显著的成功，这也给该领域带来了更多的关注。

自本书第一版出版以来，神经科学的一个蓬勃发展的分支领域发展起来，集中于神经系统中强化学习算法和强化学习之间的关系。正如许多研究人员指出的，时间差异算法的行为与大脑中产生多巴胺的神经元活动之间存在着惊人的相似性（Friston等人，1994；Barto，1995a；Houk、Adams和Barto，1995；Montague、Dayan和Sejnowski，1996；Schultz、Dayan和Montague，1997年）。第15章介绍了强化学习这一令人兴奋的方面。在强化学习的近期历史中，其他重要的东西太多了，在这篇简短的叙述中无法提及；我们在它们产生的各个章节的末尾引用了其中的许多。

Bibliographical Remarks

关于强化学习的其他一般性报道，我们让读者参考Szepesv’ari（2010）、Bertsekas和Tsitiklis（1996）、Kaelbling（1993a）和Sugiyama、Hachiya和Morimura（2013）的书。采用控制或运筹学观点的书籍包括Si、Barto、Powell和Wunsch（2004）、Powell（2011）、Lewis和Liu（2012）和Bertsekas（2012）的书籍。曹（2009）的评论将强化学习放在随机动态系统学习和优化的其他方法的背景下。《机器学习》杂志的三期特刊关注强化学习：Sutton（1992a）、Kaelbling（1996）和Singh（2002）。有用的调查由Barto（1995b）、Kaelbling、Littman和Moore（1996）以及Keerthi和Ravindran（1997）提供。由Weiring和van Otterlo（2012）编辑的这本书对最近的发展进行了极好的概述。

1.2本章中Phil的早餐的例子灵感来自Agre（1988）。

1.5在第6章中发展了在井字游戏中使用的时间差分法。

Part I: Tabular Solution Methods

在这本书的这一部分，我们描述了强化学习算法的几乎所有核心思想，这些算法的最简单形式是：状态空间和动作空间足够小，可以将近似值函数表示为数组或表。在这种情况下，这些方法往往能找到精确解，也就是说，它们通常能够精确地找到最优值函数和最优策略。这与本书下一部分描述的近似方法形成了对比，后者只能找到近似解，但反过来可以有效地应用于更大的问题。

本书的这一部分的第一章描述了加固学习问题的特殊情况下的解决方法，其中只有一个单一的状态，称为bandit问题。第二章描述了我们在本书其余部分中处理的一般问题公式——有限马尔科夫决策过程——以及它的主要思想，包括Bellman方程和值函数。

接下来的三章描述了求解有限马尔可夫决策问题的三类基本方法：动态规划、蒙特卡罗方法和时间差分学习。每一类方法都有其优缺点。动态规划方法在数学上得到了很好的发展，但是需要一个完整而精确的环境模型。蒙特卡罗方法不需要模型，概念简单，但不适合逐步递增计算。最后，时间差分方法不需要模型，而且是完全增量的，但分析起来更复杂。这些方法在效率和收敛速度方面也有不同。

剩下的两章描述了如何将这三类方法组合起来以获得它们各自的最佳特性。在一章中，我们描述了如何通过多步引导方法将蒙特卡罗方法的优势与临时方法的优势结合起来。在本书这一部分的最后一章中，我们将展示如何将时间差异学习方法与模型学习和规划方法（如动态规划）相结合，以完整和统一地解决表格强化学习问题。