《Reinforcement Learning: An Introduction》强化学习导论原文翻译17.1 广义价值函数和辅助任务

在本书的过程中，我们的价值函数概念变得非常普遍。在异策略（off-policy）学习中，我们允许在任意目标策略下定义价值函数。然后在12.8节中，我们将折扣一般化为终止函数 $\gamma :\mathcal{S} \mapsto [0,1]$ ，这样在确定回报时每个时间步都可以应用不同的折扣率 $G_t\doteq \sum_{k=t}^{\infty }\left (\prod_{i=t+1}^{k}\gamma_i \right )R_{k+1}$ （12.17式）。这使我们能够表达，在任意的依赖于状态的视角下，对将获得多少奖励的预测。接下来，也许是最后一步，是在奖励之外的广义化，以允许对任意信号的预测。我们可以预测声音或色觉的未来值或者内部高度处理的信号（例如另一个预测）的总和，而不是预测未来奖励的总和。无论以类价值函数预测的形式添加什么信号，我们都称之为该预测的累积。我们在累积信号 $C_t \in \mathbb{R}$ 中将其形式化。使用广义价值函数（GVF），写做：

${v_{\pi ,\gamma ,C}}(s) = \mathbf{E}\left[ {\sum\limits_{k = t}^\infty {\left( {\prod\limits_{i = t + 1}^k {\gamma ({S_i})} } \right){C_{k + 1}}} \mid {{S_t} = s,{A_{t:\infty }} \sim \pi \right]$

与传统的值函数（例如 $v_\pi$ 或 $q_\ast$ ）一样，这是我们寻求用参数化形式逼近的理想函数，我们可以继续用 $\hat{v}(s,\mathbf{w})$ 表示，尽管当然必须有每个预测都有一个不同的 $\mathbf{w}$ ，即每个选择的 $\pi$ ， $\gamma$ 和 $C$ 。因为GVF与奖励没有必要的联系，所以将它称为价值函数可能是一种误称。人们可以简单地将其称为预测，或者使其更具特色，即预测。无论它被称为什么，它都是价值函数的形式，因此可以使用本书中开发的方法以通常的方式学习，以学习近似值函数。除了学到的预测之外，我们还可以学习通过广义策略迭代（第4.6节）或通过actor-critic方法以通常方式最大化预测的策略。通过这种方式，agent可以学习预测和控制大量信号，而不仅仅是长期奖励。

为什么说除长期奖励之外的预测和控制信号可能有用呢？这些是辅助任务，因为它们是额外的，对于最大化奖励的主要任务。一个答案是，预测和控制多种信号的能力可以构成一种强大的环境模型。正如我们在第8章中所看到的，一个好的模型可以让agent更有效地获得奖励。这需要几个进一步的概念来清楚地发展这个结论，所以我们将它推迟到下一节。首先让我们考虑两种更简单的方式，其中大量不同的预测可以帮助强化学习agent。

辅助任务可以帮助完成主要任务的一种简单方式是，它们可能需要与主任务所需的一些相同的表达。一些辅助任务可能更容易，延迟更少，动作和结果之间的联系更清晰。如果可以在简单的辅助任务的早期找到好的函数，那么这些函数可以显著加快主要任务的学习速度。没有足够的理由说明这一定是真的，但在许多情况下似乎是合理的。例如，如果你学会在短时间内（例如几秒钟）预测和控制你的传感器，那么你可能会合理地想出对象的一部分，这将大大有助于预测和控制长期奖励。

我们可以想象一个人工神经网络（ANN），其中最后一层被分成多个部分或头部，每个部分或头部都在不同的任务上工作。一个头可能产生主要任务的近似值函数（奖励作为累积量），而其他将产生各种辅助任务的解决方案。所有的头都可以通过随机梯度下降传播误差到同一个体 - 网络的共享前面部分 - 然后尝试在其倒数第二层中形成表示以支持所有头部。研究人员已经尝试过辅助任务，例如预测像素变化，预测下一步的奖励，以及预测回报的分布。在许多情况下，这种方法已被证明可以大大加快对主要任务的学习（Jaderberg等，2017）。多次预测同样被反复提出，作为指导状态估计构建的一种方式（见第17.3节）。

辅助任务的学习可以提高性能的另一种简单方式最好通过类比经典条件的心理现象来解释（第14.2节）。理解经典条件的一种方式是，进化已经建立了与特定信号预测的特定动作的反身（非学习）关联。例如，人类和许多其他动物似乎具有内置反射，只要它们在眼睛中被戳的预测超过某个阈值就会眨眼。学习了预测，但是从预测到眼睛闭合的关联是内置的，因此动物在其眼睛中保存了许多无保护的戳。类似地，可以建立从恐惧到增加心率或僵住的关联。agent设计者可以做类似的事情，通过设计（不学习）将特定事件的预测连接到预定的动作。例如，学习预测前进是否会产生碰撞的自动驾驶汽车可以被给予内置反射以在预测高于某个阈值时停止或转向离开。或者考虑一个真空清洁机器人，它可以在返回充电器之前学会预测它是否会耗尽电池电量，并且每当预测变为非零时反射回到充电器。正确的预测将取决于房屋的大小，机器人所在的房间以及电池的使用年限，所有这些都很难让机器人设计师知道。对于设计者来说，建立一个可靠的算法来决定是否以感官术语回到充电器是很困难的，但是根据学习的预测可能很容易做到这一点。我们预见到许多可能的方法，其中学习的预测可能与用于控制行为的内置算法有效地结合。

最后，也许辅助任务最重要的作用是超越我们在本书中所做的假设，即状态表示是固定的并且被给到agent。为了解释这个作用，我们首先要回过头来了解这个假设的重要性以及消除它的意义。我们将在第17.3节中做这件事。

《Reinforcement Learning: An Introduction》强化学习导论原文翻译17.1 广义价值函数和辅助任务

猜你喜欢