Reinforcement learning——an introduction强化学习翻译1.3节

1.3 Elements of Reinforcement Learning

除了智能体和环境之外，我们可以确定强化学习系统的四个主要子元素：策略、奖励信号、值函数，以及可选的环境模型。

策略定义学习代理在给定时间的行为方式。粗略地说，策略是一种从感知到的环境状态到在这些状态下将要采取的行动的映射。它对应于心理学中所谓的一套刺激-反应规则或联想。在某些情况下，策略可能是一个简单的函数或联系，而在另一些情况下，它可能涉及大量的计算，例如搜索过程。策略是强化学习代理的核心，因为它本身不足以决定行为。一般来说，策略可能是随机的，指定每个动作的概率。

奖励信号定义强化学习问题的目标。在每一个时间步上，环境都会向强化学习智能体发送一个称为奖励的数字。代理商的唯一目标是从长远来看最大限度地获得总回报。因此，奖励信号定义了对智能体来说什么是好的和坏的事件。在一个生物系统中，我们可能认为奖励类似于快乐或痛苦的经历。它们是智能体所面临问题的直接和决定性特征。奖励信号是改变策略的主要依据；如果策略选择的某个操作随后出现低奖励，则该策略可能会在将来更改为选择其他操作。一般来说，奖励信号可能是环境状态和所采取行动的随机函数。

而奖励信号表示什么是直接意义上的好，而值函数则指定从长远来看什么是好的。粗略地说，一个状态的价值是一个智能体从该状态开始在未来可以积累的报酬总额。奖励决定了环境状态的直接、内在的可取性，而价值观则表明，在考虑到可能出现的状态和这些状态的奖励之后，状态的长期可取性。例如，一个状态可能总是会产生较低的即时回报，但仍然具有较高的价值，因为其他州通常会紧随其后，产生高回报。反之亦然。做一个人类的类比，奖励有点像快乐（如果高）和痛苦（如果低），而价值观对应于一个更精细和有远见的判断，我们是多么高兴或不高兴，我们的环境是在一个特定的状态。

从某种意义上说，奖励是主要的，而价值，作为对奖励的预测，是次要的。没有奖励就没有价值，评估价值的唯一目的就是获得更多的奖励。然而，我们在做和评估决策时最关心的是价值。行动选择是基于价值判断做出的。我们追求能带来最高价值状态的行为，而不是最高回报的行为，因为从长远来看，这些行为能给我们带来最大的回报。不幸的是，决定价值比决定奖励要难得多。奖励基本上是由环境直接给予的，但价值必须根据行为体在其整个生命周期中所进行的一系列观察进行评估和再评估。事实上，我们所考虑的几乎所有强化学习算法中最重要的组成部分是一种有效估值的方法。价值评估的核心作用可以说是在过去的60年里强化学习最重要的东西。

一些强化学习系统的第四个也是最后一个要素是一个环境模型。这是一种模仿环境行为的东西，或者更笼统地说，是一种可以对环境行为做出推断的东西。例如，给定一个状态和行为，模型可以预测下一个状态和下一个奖励的结果。模型是用于计划的，我们所说的计划是指，在实际经历未来可能发生的情况之前，通过对未来可能发生的情况进行考虑，从而决定采取何种行动。使用模型和计划来解决强化学习问题的方法被称为基于模型的方法，而不是简单的无模型的方法，即明确的试错学习方法——几乎被视为计划的对立面。在第8章中，我们探讨了强化学习系统，它可以同时通过试验和错误学习，学习环境的模型，并使用模型进行规划。现代强化学习的范围从低级的试错学习到高级的深思熟虑的计划。

Reinforcement learning——an introduction强化学习翻译1.3节

1.3 Elements of Reinforcement Learning

猜你喜欢