文章目录

1. 本章内容概要
2. 预测和控制
3. classical conditioning

3.1 阻塞和高阶的条件反射
3.2 Rescorla–Wagner模型
3.3 TD模型
3.4 TD模型仿真

4. 工具条件反射
5. 延迟的强化
6. 认知映射
7. 习惯和目标引导的行为
8. 总结
参考文献

1. 本章内容概要

在之前的章节中，我们研究了仅仅基于计算的各种算法思想，这一章，我们则从另一个角度看待这些算法，也就是心理学的角度以及其对动物学习方式的研究。本章的目标是：首先，研究RL的思想和算法与心理学家发现的动物学习过程的关联；第二，介绍RL对动物学习研究的影响。

RL框架综合了任务、回报、和算法，在处理实验数据、指导新的实验、指出影响操作和测量的关键因素等方面非常有效。优化长期回报的思想是RL的核心，这也对研究动物学习和行为中的困扰有所指导。

RL和心理学理论之间的关联并不让人惊讶，因为RL的在发展过程中本来就受到了心理学习理论的很多启发。然而，正如我们在本书中所研究的，RL是从人工智能研究者/工程师角度对理想情形的探索，目的是为了利用算法解决计算问题，而不是解释动物如何学习的。但是我们能找到这两个领域中一些思想的密切联系，这些关联很有意义。

本章的大部分内容会研究RL与动物(老鼠，鸽子等)学习理论的关联。随着心理学的发展，它变得更重视认知方面，也就是如思考、推理等心理过程，而动物学习实验则逐渐在心理学中不那么重要了。但是这些实验揭示了动物界学习的法则，在AI中不应该忽视这些成果。此外，一些认知处理过程也和RL中的计算视角有自然的关联。

本章最后的部分还会探索RL中的术语和心理学中的术语之间的对应关系，其实RL中很多术语都是从动物学习理论借鉴过来的，但是含义可能有所不同。

2. 预测和控制

本书中介绍的算法包含两个大类：预测算法和控制算法。这两类方法在RL中是很自然的出现的。和心理学相对照，则对应心理学中一些研究很深入的类别：classical(Pavlovian) conditioning和 instrumental(operant) conditioning。这些关联是不意外的，因为心理学本来就对RL的发展有很大影响，但是仍然很让人激动，因为这把不同领域的思想连接了起来。

本书中的预测算法是用来估计agent环境的特征未来展开之期望的值(这话怪怪的…)，我们一般着眼于估计累积折扣回报的期望。从这个角度，预测算法也就是策略评估算法，是策略提升所必需的工作。但是预测算法并不局限于预测未来的回报，也能预测环境的任何特征。预测算法和classical conditioning的关联主要在于它们都预测即将来临的刺激(回报/惩罚)。

而对于instrumental conditioning的实验则不太一样，在实验装置中设置动物喜欢(reward)和讨厌(penalty)的要素，动物则学习增加其产生回报行为的趋势，降低产生惩罚行为的趋势，而在classical conditioning中并不是这样操作的。在instrumental conditioning中控制是这个学习过程的核心，对应着RL中的策略提升过程。

classical conditioning针对预测，instrumental conditioning针对控制，这是将RL的计算观点和动物学习相关联的起点，但是在实际中情况会更复杂一些。classical conditioning比预测的内涵要多，它还包含动作，这实际上是一种模式的控制，有时叫做Pavlovian control。此外，classical和instrumental之间还有有意思的关联。无论如何，将classical/instrumental和预测/控制联系是一个方便的办法。

在心理学中，术语**增强(reinforcement)**既用来描述classical中的学习，也用来描述instrumental中的学习。实际上最初只用来描述某种行为模式的增强，也常用来描述行为模式的减弱。导致行为改变的刺激叫做增强子(reinforcer)，无论这是否取决于动物以前的行为。本章最后，我们会更深入讨论这个术语，以及它和ML中术语的关联。

3. classical conditioning

当研究消化系统的活动时，著名的俄罗斯心理学家Ivan Pavlov发现，动物对特定刺激的本能反应，也可以被与这先天刺激完全无关的其它刺激激发。他的实验主要用狗完成，对其进行轻微手术使之唾液反射系统能被准确测量，在他描述的一个例子中，在一般情况下狗不产生唾液，但是如果给它看食物，则会在5s后产生6滴唾液。然后他多次重复在给狗看食物前给它先听节拍器的声音这个组合动作，最后发现只要给节拍器的声音也会触发狗流唾液。

针对这个重要实验，Ivan Pavlov总结到：

很明显的，在自然条件下，动物不仅仅会对带来立即好处/伤害的刺激产生反应，也会对那些预示着这些刺激的信号产生反应(物理或化学的，如声波、光波等)，虽然并不是猎物的光和声信号带来吃饱的结果，而是动物自己的牙齿和爪子。
——Pavlov

将新的刺激和固有的本能反应通过这种方式连接起来，就叫做classical(Pavlovian) conditioning，可翻译成经典条件反射。Pavlov把这种先天的反应叫做无条件反应URs(如看到食物流口水)，它们自然的触发性刺激叫做无条件刺激USs(如食物)，把受到新的触发刺激从而产生的反应叫做条件反应CRs(如节拍器导致流口水)。一个原本中性的刺激，意味着它本来不会导致很强的反应(如节拍器的声音)，当动物学习到它意味着US即将到来且会产生一个CR作为反应，中性的刺激就变成了条件刺激CS。这些术语目前还在用于描述经典条件实验，其中US也叫做增强子(reinforcer)，因为它加强了CR的产生作为CS的反应。

经典条件实验中，刺激的设置通常有两种类型，如下图所示：
在这里插入图片描述
在延迟条件反射(Delay Conditioning)中，CS覆盖ISI，也就是在CS开始点和US开始点之间的部分；在追踪条件反射(Trace Conditioning)中，US在CS结束之后过一段时间再开始，在CS结尾与US起始之间的区间叫做跟踪间隔(trace interval)。

Pavlov的狗听到节拍器流口水的实验只是经典条件反射的一个例子，已经得到了很深入广泛的研究了。URs通常是准备性的，例如Pavlov的狗的口水；或者通过是保护性的，就如吓唬要伤害眼睛导致眨眼，或者看到捕食者之后就呆住不动。经验上，CS-US的在一系列反复试验中的预测性关系导致动物学到用CS预测US，以至动物可以用CR响应CS，实际上是动物对预测的US做出的准备或者自我保护。一些CRs和UR是相似的，但是在某些方面有小的区别，例如提早发生等时间上的变化。例如，在一个研究很深入的实验类型中，一个CS(声音)能可靠地预测吹向兔子眼睛的风(US)，触发眨眼这个UR。在多次实验后，这个声音就能在实际吹风之前触发CR(眨眼)，且保证风实际到来时恰好眨眼到完全关闭眼睛(从而带来最低的伤害)。这个CR最初是用来降低吹向眼睛的风的伤害的，但是添加了CS后，可以使兔子提前闭眼，从而得到更好的保护。这种通过学习刺激之间的预测性关系从而能在预测到重要事情时动作的能力是很有益的，因而在动物界中非常普遍。

3.1 阻塞和高阶的条件反射

经典条件反射在实验中被观察到了很多有趣的特性。在经典条件反射模型的发展过程中，有两个被广泛观察到的性质发挥了重要作用：阻塞和高阶条件反射(blocking and higher-order conditioning)。某个CS已被证实可以引起动物的某个CR，在训练好这个CS后，引入另一个CS和这个CS一起使用继续训练，发现新的CS无法单独引起这个CR，这就叫做阻塞。例如，在涉及兔子眨眼条件反射阻塞实验的第一阶段，兔子首先被给出一个声音的CS和向眼睛吹气的US，从而导致利用声音预测接下来的吹气从而眨眼保护这个CR；这个实验的第二阶段中，则在给出声音的同时额外加入第二个刺激，例如光，然后看经过试验后，能否用这个新加入的刺激导致CR，结果发现是不行的，对光这个刺激的响应被先前的声音这个刺激阻塞了。这种阻塞的效果挑战了认为条件反射只依赖时间相近度的想法(US紧跟CS就能使CS引发CR)，在下个小小节，我们介绍Rescorla–Wagner模型，该模型给出了阻塞条件反射的一个很有影响的解释。

把一个先前的已经训练好的引发响应的CS作为US，利用它使另外一个中性的刺激产生同样的UR，此种现象叫做高阶(级联？)条件反射。Pavlov描述的一个实验中，他的助手首先让狗对节拍器的声音产生条件反射，然后再把节拍器的声音作为US，试图让狗对一个黑色方块也产生条件反射(此过程即先给狗看黑色方块，然后马上给节拍器的声音，而不给食物)。仅仅经过十次训练后，黑色方块就能引发狗流口水了，这个过程中节拍器的声音起到了US的作用。这就是二阶条件反射，依次类推，还可以产生三阶乃至更高阶的反射。高阶反射的训练是很难的，因为高阶的增强子失去了原始增强子的那种根本价值。但在适当的条件下，高阶反射是也是能训练出来的。经典条件反射的TD模型使用了bootstrapping思想，这也是Rescorla–Wagner模型的核心，可以同时解释阻塞与高阶条件反射。

高阶工具性条件反射也会发生。在这个情形中，一个用来预测主要增强的刺激本身变成了增强子(就是US)。这个预测的刺激变成了二阶增强子，或者更一般的，变成了高阶或条件增强子，后面这个叫法则是当预测的增强刺激本身是二阶甚至高阶增强子时更恰当的术语。一个条件增强子传送了条件增强：条件回报或者条件惩罚。条件增强像主要增强一样，增加了动物产生导向条件回报的行为的趋势，降低了动物产生导向条件惩罚的行为的趋势。

条件增强是解释一些现象的关键，例如，我们努力工作挣钱，而钱实际上是条件增强子，其价值源于拥有钱后所能买到的东西。在actor-critic方法中，critic使用TD方法评估actor的策略，它的值估计向actor提供了条件增强，使得actor能提高自己的策略。这种对高阶工具性条件反射的模拟可以帮助我们解决回报赋值的问题，因为critic实际上给的是实时的增强，而原始回报信号是延迟的。

3.2 Rescorla–Wagner模型

Rescorla和Wagner主要针对阻塞反射创建了他们的模型。其核心思想是，动物只有在事情与期望偏离时才进行学习。接下来，我们首先使用他们的术语介绍Rescorla-Wagner模型，然后我们再切换到TD中的术语。

Rescorla和Wagner描述：模型调整复合CS中每个成员刺激的连结强度(associative strength)，该连结强度代表这个成员对US的预测强度或可靠度。当一个复合CS包含多个成员刺激时，每个成员刺激的连结强度依赖于复合刺激整体的连结强度而变化，而不是仅仅依赖每个成员自身的连结强度，这个整体连结强度叫做聚合连结强度(aggregate associative strength)。

Rescorla和Wagner考虑，对于一个包含成员刺激A和X的复合CS AX，其中A刺激动物已经经历过了，但是刺激X的新的。令 $V_{\mathrm{A}}, V_{\mathrm{X}},$ 和 $V_{\mathrm{AX}}$ 分别表示刺激A、X和复合AX各自的连结强度。假设在一次实验中，复合CS AX后紧跟着US，这个US用标记Y表示，那么，每个成员刺激的连结强度按照如下公式变化：

$\Delta V_{\mathrm{A}}=\alpha_{\mathrm{A}} \beta_{\mathrm{Y}}\left(R_{\mathrm{Y}}-V_{\mathrm{AX}}\right)$
$\Delta V_{\mathrm{X}}=\alpha_{\mathrm{X}} \beta_{\mathrm{Y}}\left(R_{\mathrm{Y}}-V_{\mathrm{AX}}\right)$

其中， $\alpha_{\mathrm{A}} \beta_{\mathrm{Y}}$ 和 $\alpha_\mathrm{X} \beta_{\mathrm{Y}}$ 是步长因子，依赖CS成员和US的性质， $R_{\mathrm{Y}}$ 则是US Y能提供的连结强度的渐进水平(实际上，Rescorla和Wagner在这里使用的是 $\lambda$ 而不是 $R$ ，而本书中 $\lambda$ 用于表示RL的折扣因子)。这个模型的关键假设是，聚合连结强度 $V_{\mathrm{AX}}$ 等于 $V_{\mathrm{A}}+V_{\mathrm{X}}$ ，这些连结强度变化 $\Delta s$ ，并成为下轮试验中的连结强度。

为了完整性，模型还需要响应生成机制，也就是把CRs映射为值Vs，由于这个映射依赖试验情景的细节，Rescorla和Wagner并没有指定具体的映射原则，只是假设更大的Vs能产生更强的或更多的CRs，负的值则意味着没有CRs。

Rescorla-Wagner模型以解释阻塞反射的方式解释了CRs收益。只要聚合连结强度 $V_{\mathrm{AX}}$ (复合刺激)低于连结强度的渐进水平 $R_Y$ (US Y能支撑的)，那么预测误差 $R_{\mathrm{Y}}-V_{\mathrm{AX}}$ 就是正的，这意味着经过连续的试验后成员刺激的连结强度 $V_A$ 和 $V_X$ 就会增加，直到聚合连结强度 $V_{\mathrm{AX}}$ 等于 $R_Y$ ，此后成员连结强度就不再变化了(除非US发生变化)。当一个新的成员加入到复合刺激CS中(该复合刺激动物已经形成条件反射)，由于误差已经下降到零或者很小的值，因而这个更复杂的条件试验只会导致这个新加入的成员刺激的连结强度发生很小的变化或者根本不发生变化。US的出现已经被预测得很好了，因而新加入的CS成员只能带来很少或者几乎没有预测效果，这样之前的CS就阻塞了新加入的CS成员。

为了将Rescorla-Wagner模型转换到经典条件反射的TD模型(之后简称TD模型)，我们首先使用本书中一直用的术语重构这个模型。特别地，我们把基于线性拟合器的学习中用到的概念进行匹配，并把条件反射过程当作在一次基于复合CS的试验中预测US幅度的一次学习，其中US Y的幅值就是如上介绍的Rescorla-Wagner模型中的 $R_Y$ 。我们也引入状态的概念，因为Rescorla-Wagner模型是训练层次的模型，意味着它处理的是在一次次试验中连结强度是如何变化的，而不考虑在试验之间或者试验内部的任何细节，直到我们在下个小节介绍完整的TD模型之前，我们都不必考虑在试验过程中状态如何发生变化。此外，我们简单地认为状态是试验中CSs成员集合的标签。

因此，假设训练类型(状态) $s$ 用一个实数向量描述， $\mathbf{x}(s)=\left(x_{1}(s), x_{2}(s), \ldots, x_{d}(s)\right)^{\top}$ ，其中在试验中刺激 $CS_i$ 被使用了，那么对应的向量元素 $x_{i}(s)=1$ ，否则向量元素就是0。那么，如果连结强度的d维向量是 $\boldsymbol{w}$ ，则该试验类型的聚合连结强度就是：

$\hat{v}(s, \mathbf{w})=\mathbf{w}^{\top} \mathbf{x}(s)$

这和RL中的值估计相关，我们把它当作US预测。

用t表示完整试验的次数，注意这里不表示时间步，并假设 $S_{t}$ 是和训练t相关联的状态，条件反射训练t按照如下公式更新连结强度向量：

$\mathbf{w}_{t+1}=\mathbf{w}_{t}+\alpha \delta_{t} \mathbf{x}\left(S_{t}\right)$

其中 $\alpha$ 是步长因子，并且，因为这里我们描述的是Rescorla-Wagner模型， $\delta_{t}$ 因此是预测误差：

$\delta_{t}=R_{t}-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)$

其中 $R_t$ 是试验t中的预测目标，也就是US的幅值，或称为在试验中US能支持的连结强度。注意因子 $\mathrm{x}\left(S_{t}\right)$ ，也就是只有该次试验中CS成员的连结强度得到调整。我们可以认为预测误差是surprise程度的度量，而作为动物期望的聚合连结强度则在不能匹配目标US幅度的时候发生冲突。

从ML的视角看，Rescorla-Wagner模型是一个误差更正监督学习的法则，这本质上和LMS(或者Widrow-Hoff)学习法则是一样的，他们的目标是寻找使得所有误差的平方均值最小的权重(这里则是连结强度)。实际上就是曲线拟合，或者说是回归算法，这在工程和科学实践中应用很广泛。

Rescorla-Wagner模型在动物学习理论的历史上非常有影响力，因为它给出了能解释阻塞现象的理论机理，而没有动用复杂的认知理论(例如当出现新的刺激组分时，动物认知机制会回溯扫描短期记忆，重新评估涉及US的预测关系)。Rescorla-Wagner模型展示了传统的条件反射临近理论(时间上的邻近性是学习的必要充分条件)面对阻塞现象如何通过简单的调整而加以解释。

Rescorla-Wagner模型给出了阻塞和其他一些经典条件反射特性的简单解释，但是并不完美和完备。还有很多其他想法用来解释其他观察到的效应，目前在理解经典条件反射的很多微妙之处上还在推进。我们马上就要介绍的TD模型，虽然针对经典条件反射也不完美和完备，但是它扩展了Rescorla-Wagner模型，解释了试验之间和试验内部刺激的时间关系对学习的影响，并解释了高阶条件反射是如何产生的。

3.3 TD模型

TD模型是实时的模型，而不是Rescorla-Wagner模型那种试验级别的模型。在Rescorla-Wagner模型中，单个时间步t表示了整个条件反射试验，这个模型没有考虑在试验过程中或者试验之间所发生事情的细节。在每个试验之中，一个动物可能经历多种刺激，这些刺激的开端发生在特定的时刻，并有特定的持续时间。这些时间关系对学习影响很大，Rescorla-Wagner模型也没有囊括对高阶条件反射的机制，而对于TD模型，高阶条件反射不过是bootstrapping思想的自然结果。

为了描述TD模型，我们从上述Rescorla-Wagner模型的公式开始，但是这里t的含义回到RL中的时间步。我们认为t到t+1之间的时间间隔很短，例如说0.01秒，并把试验当作状态的序列，每个状态与一个时间步相关联，时间步t的状态那么就表示刺激在该时刻如何出现的细节，而不仅仅是一个CS成分出现的标签。实际上，我们这里可以完全抛弃试验的概念，从动物的视角出发，一次试验不过是其与时间连续性交互的一个片段罢了。考虑我们一直以来agent与环境交互的视角，想象动物经历无穷无尽的状态s序列，每个状态都用向量 $\mathbf{x}({s})$ 表示。在这里，试验不过表示刺激重复模式的时间片段。

状态特征不局限在描述动物经历的外部刺激；我们用状态描述外部刺激在动物大脑中产生的神经活动模式，这些模式可以是依赖历史的，意味着它们可以是外部刺激序列引起的持续模式。当然，我们并不确切知道这些神经活动模式是什么，但是一个像TD一样的实时模型允许我们在不同的关于外部刺激的内部表征的假设下探索学习的结果。出于这些原因，TD模型并不局限于任何特定的状态表征。此外，TD模型包含了折扣和资格迹(分布在刺激的时间间隔上)。

以后我们会给出一些TD模型中的状态表征以及它们的内涵，但是这里我们先假设每个状态s都由一个特征向量 $\mathbf{x}(s)=\left(x_{1}(s), x_{2}(s), \ldots, x_{n}(s)\right)^{\top}$ 表征。之后，与状态相关联的聚合连结强度则由之前提到过线性形式给出：

$\hat{v}(s, \mathbf{w})=\mathbf{w}^{\top} \mathbf{x}(s)$

虽然这个式子和Rescorla-Wagner模型中的一样，但是TD提供了不同的权重更新机制，其更新公式为：

$\mathbf{w}_{t+1}=\mathbf{w}_{t}+\alpha \delta_{t} \mathbf{z}_{t}$

也就是用资格迹 $\mathbf{z}_{t}$ 替换了Rescorla-Wagner模型中 $\mathbf{x}_{t}$ ， $\delta_t$ 也替换为TD误差的形式：

$\delta_{t}=R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)$

其中， $\gamma$ 是折扣因子， $R_t$ 则是时刻t的预测目标， $\hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)$ 和 $\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)$ 是聚合连结强度。

资格迹 $\mathbf{z}_{t}$ 中的第i个元素根据状态特征的第i个元素 $x_{i}\left(S_{t}\right)$ 增加或者降低，否则就按照 $\gamma \lambda$ 衰减：

$\mathbf{z}_{t+1}=\gamma \lambda \mathbf{z}_{t}+\mathbf{x}\left(S_{t}\right)$

这里， $\lambda$ 是资格迹衰减因子。

注意，如果 $\gamma=0$ ，那么TD模型就退化为Rescorla–Wagner模型，除了t的含义不同，以及TD中存在一个单时间步的预测目标R。TD模型等价于backward view的带有线性拟合器的半梯度 $\mathrm{TD}(\lambda)$ 算法。

3.4 TD模型仿真

实时条件反射模型(例如TD模型)很有意思，因为它们能对很广泛的难以被试验级别的模型表征的情形做出预测。这些情形包括条件刺激的起始时刻和持续时间，这些刺激的开始时刻与US的开始时刻之间的关系，CRs的开始时刻及其形状等。例如，US必须在条件反射的中性刺激的开始之后开始，而学习率和效率则依赖于刺激之间的间隔，以及CS和US起始时刻之间的间隔(ISI)。而CRs通常在US的出现之后启动。在带有复合CSs的条件反射中，成员刺激可能并不在同一时刻开始和结束，有时会形成称之为序列复合的情形，也就是所有的成员刺激依时间序列而出现。对时间上的考虑使得考虑刺激如何出现、出现过程如何随着时间展开、在试验中刺激如何与折扣和资格迹交互变得很重要。

下图展示了在探索TD模型的行为过程中用到的三个刺激表征：完全序列复合CSC、微刺激MS以及存在presence。这些表征的区别之处在于对临近时刻点的泛化程度。

在这里插入图片描述
这些表征中最简单的情形如上图右侧所示，也就是presence表征。这个表征对每个成员CS只有单个特征(标量)，只有在特征出现的时候是1，其它时候则是0。presence表征并不是存在于动物大脑中的切合实际的假设，但是正如我们下面描述的，使用这种表征的TD模型能表现出很多经典条件反射中的时间性现象。

对于CSC表征，外部刺激发生后，引发产生一系列内部刺激序列，各个波形的起始时刻是确定的，且持续时间都很短，直到外部刺激结束，内部刺激序列方才终止。这就像假设动物的神经系统中有一个时钟，准确地在外部刺激出现期间跟踪时间；这也就是工程师称为抽头延迟线(tapped delay line)的东西。和presence表征类似，CSC表征也是不真实的假设，但是它却能揭示当相对不受刺激表征约束时TD模型工作方式的细节。CSC表征也在大脑内多巴胺产生神经元的TD模型中使用，这我们会在下一章中讨论。

对于MS表征，则和CSC表征相似，每个外部刺激会激发一个内部刺激序列，但是此时内部刺激则是微刺激，不怎么受限制且允许重叠。刺激发生后，随着时间进行，不同集合的微刺激变得更多或更少的活跃，且每个后续微刺激变得更加宽，同时其最大值降低。当然，根据微刺激的性质不同，可以有很多种类的MS，在文献中已经研究过很多种类的MS了，其中有些研究针对的就是动物大脑的实际情况。MS表征比presence和CSC更真实，允许TD模型的行为切合更多的在动物试验中观测到的现象。特别地，通过假设被USs和CSs激发的微刺激的级联，并通过研究微刺激之间交互、资格迹、折扣对学习的重要影响，TD模型帮助我们解释了很多经典条件反射中的微妙现象，并解释了动物大脑是如何产生它们的。我们在第十五章中会更深入地讨论这个问题。

即使只是用最简单的presence表征，TD模型也能产生出经典条件反射中(Rescorla–Wagner模型能解释的)所有基本特性，还能解释超出试验级别模型范围的一些特征。例如，我们之前提到，经典条件反射中的一个显著特征是US通常必须在中性刺激的发生之后开始，且在条件出现后，CR(例如提前眨眼)要在US的出现之前。换言之，条件反射通常需要正的ISI，而CR则通常预测US。条件反射的强度(或者CS引发的CRs的概率)依赖ISI的变化，无论对于任何物种或者反应系统都成立，但是它通常具有如下性质：0或者很小的ISI是可以忽略的(例如US的开端比CS的开端早或者与之同步)；对于一个正的ISI当条件效力最大时，连接强度增加到最大值；这之后它会衰减到0，而衰减的时间随着响应系统变化很大。TD模型的这种依赖的精确形状依赖它的参数以及刺激表征的细节，但是这些对ISI之依赖的基本特征是TD模型的核心。

当带有序列复合条件时会出现一个理论上的问题，也就是，组分按时间序列出现的复合CS的条件反射关心的是远程联系的促进。人们已经发现，如果第一个CS(CSA)和US之间空的迹间隔填充进第二个CS(CSB)以形成序列复合刺激，那么CSA的条件反射就得到了促进。如下图所示，其为使用presence表征的TD模型的行为，与实验结果一致的是，模型显示出由于第二个CS的存在，第一个CS条件发生的概率以及渐进水平都得到了促进。

在这里插入图片描述
一个条件反射刺激之间的时间关系效果实验(Egger 与 Miller)广为人知，它包含两个延迟的且重叠的CSs(下图)。虽然CSB与US的在时间轴上更贴近，但是CSA的存在极大降低了CSB的条件反射。下图还展示其结果。

TD模型认为阻塞现象是因为误差纠正的学习规则(例如escorla–Wagner模型)。除了解释了基本的阻塞结果，TD模型还预测了如果被阻塞的刺激向前移动使得它的起始发生在阻塞刺激的起始之前，则阻塞会出现翻转。如下图上部分所示(是不是画错了…)：
在这里插入图片描述
TD模型行为的这个特征值得关注，因为在这个模型建立之前该现象是没被观察到过的。回忆下在阻塞现象中，如果一个动物已经学习了一个CS对US的预测，那么学习一个新加入的CS对US的预测效果则会大大减弱，也就是阻塞了。但是如果先加入的第二个CS在预训练的CS起始之前起始，那么根据TD模型，学习新的刺激就不会被阻塞。实际上，随着试验进行，新加入的CS加强了连结强度，而预训练的CS则降低了连结强度。在这些情形下的TD模型的行为如上图下部分所示。本实验和 Egger 与 Miller 的实验不同之处在于，位于后面的更短的CS要进行预训练直到它能完全预测US。这个让人吃惊的发现启发了兔子眨眼实验，其结果证实了这个预测，且前人已经分析，非TD的模型难以解释这个现象。

使用TD模型，在前面的预测性刺激是优先于后面的预测性刺激的，因为如本书中介绍的所有预测方法一样，TD模型是基于backing-up或者说bootstrapping思想的，在某个状态更新其连结强度时，会向后续状态的强度移动。bootstrapping的另一个效果是，TD模型提供了对高阶条件反射的解释，而高阶条件反射是经典条件反射中的一个特性，这个特性是无法在Rescoral-Wagner的框架下解释的。正如我们上面描述的，高阶条件反射是当一个先前的CS对另一个中性刺激扮演US时出现的现象，下图给出了TD模型在高阶条件反射实验中的行为(二阶)。在第一象限(图中没画)，CSB通过训练来预测US，因而其连结强度得到了增强；在第二象限，CSA则在US缺失的情形下与CSB配对，如下图中上侧的时序图所示。通过连续的训练，CSA的连结强度达到高峰并开始下降，这是因为CSB的连结强度也下降了(其增强效果也跟着下降了)。CSB的连结强度下降是因为US在高阶条件反射训练中消失了，因而这些训练对于CSB来说是“消失训练”，因为它与US的预测关系被破坏了。在动物实验中这个现象也可以观察到，高阶试验中条件增强的消退使得演示高阶条件反射很困难，除非初始的预测性关系通过间歇地插入一阶训练到高阶训练中不断刷新。
在这里插入图片描述
TD模型能产生二阶甚至高阶的条件反射，这是因为TD误差中 $\gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)$ 的缘故。这意味着作为之前学习的结果， $\gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)$ 与 $\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)$ 就有了一定的差别，使得 $\delta_{t}$ 非零了。实际上，这个TD算法的特征是其得到发展的主要原因，这一点我们通过其与动态规划算法的联系就能理解。bootstrapping值是和二阶以及高阶条件反射紧密联系的。

在上述TD模型之行为这个例子中，我们只检查了CS组分的连结强度的变化，我们还没研究模型对于动物条件反射响应CRs的性质的预测即，CRs的时间性质、形状、以及如何发展。这些性质依赖于具体的物种、被观察的响应系统、以及条件反射训练参数，但是在很多具有不同的动物以及不同的响应系统的实验中，CR的幅值，或者说CR的出现概率，则与US的期望出现时间相关。例如，在兔子眨眼响应的经典条件反射中，从CS到开始闭眼这个时间间隔随着试验的进行而之间降低，期望的闭眼的幅度逐渐增加，直到在US的期望发生时刻达到最大。CR的时刻和形状对于它的自适应重要性而言是非常重要的，闭眼过早的话会阻塞视觉功能，闭眼过晚则会导致保护价值降低。抓住这样的CR特征对于经典条件反射来说是很具有挑战性的。

TD模型并不包括任何把US预测的时序(这里指的是不同时刻t的值函数大小之变化) $\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)$ 转换到能和动物CR相比之描述的机制。最简单的选择是，让仿真的CR的时序等于US预测的时序，在这个情形下，仿真的CRs的特征以及它们如何随着试验变化只依赖于刺激表征的选择以及模型参数： $\alpha, \gamma,$ 和 $\lambda$ 。

下图给出了使用三种表征的学习过程中在不同点上US预测的时序，对于这些仿真，在CS的起始后25个时间步加入US，并设置参数 $\alpha=.05, \lambda=.95$ 和 $\gamma=.97$ 。对于CSC表征，TD模型中的US预测按照指数增加，直到达到最大，也就是US出现的时刻；这种指数级别的增加是TD模型中学习法则中折扣的结果；对于presence表征，US预测则几乎是常数，因为对于每个刺激只有一个权重能被学习，最后导致采用presence表征的TD模型无法再建CR时间的很多特征；对于MS表征，TD模型中的US预测则进展得更加复杂，在200个试验之后，预测的轮廓就成为了CSC表征的拟合了。

在这里插入图片描述
图中的US预测曲线并不是像在特定的动物实验中发展的那样刻意地精确匹配，但是他们展示了刺激表征对TD模型驱动的预测的巨大影响。进一步地，刺激表征如何与折扣和资格迹交互也是决定TD模型产生的US预测轮廓的重要性质。另一个维度则是不同的将US预测转换到CR轮廓的响应生成机制的影响，上图中的轮廓是原始的US预测轮廓。上图中关于CSC及MS表征也会随着US靠近而增加，并在US的发生时刻达到最大，在很多动物实验中也是这样的。

TD模型，与特定的刺激表征及响应生成机制结合后，就能解释在动物经典条件反射试验中观察到的很多现象，但是这距离一个完美的模型还是有很大的距离。为了生成其他经典条件反射中的细节，模型需要进行扩展，也许可以通过增加基于模型的元素和机制以自适应地改变参数。另外一些对经典条件反射建模的方法则与Rescorla–Wagner风格的误差纠正过程差别很大，例如贝叶斯模型，就是在概率的框架下工作的，利用经验来更新概率估计。所有这些模型都对我们理解经典条件反射做出了贡献。

也许TD模型最引人注目的特征是它是基于一个关于动物在经历条件反射时，其神经系统尝试做的事情的解释的理论：它尝试形成长期的准确预测，并与刺激表征的限制以及神经系统如何工作保持了一致性。换言之，它给出了一个经典条件反射长期的规范解释，而不是基于立即预测。

经典条件反射TD模型的发展是有明确目标的实例：即对动物学习行为中的一些细节建模。它是一个算法，TD学习也是生物学习方面的基础。正如我们在第十五章中将要讨论的，TD学习也恰巧是产生多巴胺(与回报过程关系密切的哺乳动物大脑内的化学活动)的活动神经元的模型的基础。这些是RL与动物行为和神经系统密切相关的实例。

我们后面开始考虑RL与动物工具性条件反射之间的关联。

4. 工具条件反射

在工具性条件反射(instrumental conditioning)实验中，学习依赖于行为的结果：增强性刺激的传递依动物所做的事情而变化。相反地，在经典条件反射实验中，增强性刺激US的传递是独立于动物的行为的。工具性条件反射通常被认为与操作性条件反射(operant conditioning)是一样的，operant conditioning则是B. F. Skinner为依行为而变的增强实验而引入的。我们使用工具性条件反射这个术语来表示增强依行为而变的实验(注意增强可以理解为最终的回报)，其起源于美国心理学家Edward Thorndike一百多年前做的实验。

Thorndike在实验中观察了放入带有逃出开关的盒子的猫，如下图所示。逃出的动作可根据需要设置，例如猫可以通过执行包含三个动作的序列打开盒子：压下盒子后面的平台、用爪子拉一个绳子、把门闩从水平状态调整到竖直状态。第一个次放入盒子时，在盒子的外面放置能看到的食物，只有一小部分Thorndike的猫表现出了“不舒服的明显表现”以及“特别活跃的试图逃出盒子的活动”。

在这里插入图片描述
在使用不同的猫以及具有不同逃出机制的实验中，Thorndike记录下了每只猫在多次实验中逃出去所需要的时间。他观察到，成功逃出的经验能导致猫明显地缩短之后的逃出时间(300s到6~7s)。他这样描述盒子中猫的行为：

猫会在盒子中不断地用爪子四处乱抓，会偶然地碰到设置的绳子、环和按钮。逐渐的，所有对那些不成功位置的抓的动作就会减少，而成功的那些则会增加。最后，经过多次训练后，只要一把猫放入盒子中，它就能立刻去执行设定好的逃出动作。

这些实验使得Thorndike总结出了一系列学习的规律，最有影响力的当属“效果法则(Law of Effect)”，这个法则描述了反复试验的中的学习过程。

效果法则描述了RL算法特征与动物学习特征之间的本质关联。首先，RL算法是选择性的，在多个选项中，通过比较各个动作的结果进行选择；第二，RL算法是与一些条件联合的(associative)，动作的选择与特定的情形(状态)相关。正如效果法则描述的学习一样，RL不仅仅是找到产生很多回报的过程，也将动作选择与情形结合了起来，Thorndike使用了“通过选择和连接学习”来描述。进化中的自然选择也是选择性过程的一个例子，但是它并不是associative的，而监督学习是associative的，但它不是选择性的，监督学习是直接依赖于标签的。

在计算术语中，效果法则描述了将搜索和存储结合的基本方法：在每个情形下尝试各种动作以找到最好的动作，并记录下情形对最佳动作的映射关系。搜索和存储是所有RL算法中必需的组分，其中存储又可以表现为策略、值函数，或者环境模型等形式。

一个RL算法对搜索的需求意味着它必须要进行探索。动物也是会探索的，并且早期的动物学习研究者不同意像Thorndike的盒子试验中选择动作时动物所使用引导的程度(起始就是探索和利用的权衡问题)。这些动作是绝对随机的结果吗？或者还是有先前学习、推理、或其他东西一定程度的导引？虽然一些研究者(包括Thorndike)选取了第一种态度，另外一些学者则更倾向于后者。RL算法允许调整智能体在选择动作中的导引程度。本书各个算法中各种探索的形式，例如 $\epsilon$ -greedy方法和UCB方法。还可以使用更成熟的方法，实际上只要方法能保证一定的探索性即可。

我们对待RL的特性使得可行动作集合能在任何时候根据环境而变化，这与Thorndike在他的实验中观察到的相呼应。小猫的可选动作是与其当前所处的位置有关的。当第一次放到盒子中时，小猫会立刻抓挠、撕咬，这是小猫发现自己被囚禁的立即反应。成功的动作是从可选动作集合中选择的，这和我们在RL中各个状态的可选动作集合 $A(s)$ 是类似的。确定可选动作集合在RL中是很重要的，因为其可以极大地简化学习。

著名的动物学习研究者Clark Hull和B. F. Skinner也受到了效果法则的影响。这项研究的核心即基于结果的行为选择思想。RL与Hull的理论具有共同的特征，包括资格迹机制和用来解释在动作和其强化刺激之间存在较长时间间隔的学习能力的二阶增强。随机性在Hull的理论中也存在，他称之为行为震荡，这用来引入探索性行为。

Skinner并不完全采取了效果法则中的记忆方面的内容。他反对associative的思想，而是强调从自发性发射(spontaneously emitted)行为中的选择。他引入了operant这个术语用来强调动物环境中动作选择所扮演的关键角色。不像Thorndike和其他人的实验包含分离的试验的序列，Skinner的操作性条件反射实验允许动物不受打断地行动更多的时间。他发明了操作性条件反射腔，现在叫做Skinner盒，其中包含一个按钮，动物可以按下它获得回报(水或者食物)，回报按照良好定义的规则给出，这个叫做强化程序。通过记录按钮被按下的累计次数，并把它当作时间的函数，Skinner和他的同事们能够基于动物按压的频率研究不同强化程序的效果。

Skinner的另一个贡献是他对于通过强化期望行为的连续拟合在训练动物中的有效性的研究，他把这个过程叫做shaping。他和同事尝试通过训练鸽子用嘴拍打木球来投球。在等待很久都没发现增强击打现象后，他们决定增强任何与击打有一些相似的响应，首先是仅仅看着这个球，然后是选择和最终形式更相似一些的响应。结果让人很吃惊，鸽子能够很好的打球了。鸽子不仅仅学会了对其非常不寻常的行为，它还通过相互作用过程快速学习了变化的行为和强化事件的是相应的。Skinner把强化的变化过程比作雕刻家把粘土塑成期望形状的工作。塑形是计算性RL系统中强有力的技巧。当对于一个智能体接收非零的回报信号有困难时(要么是由于回报的稀疏性，要么是由于难解的初始行为)，从一个简单的问题开始，逐渐增加其难度会显得很有效甚至是不可缺少的策略。

在心理学中，动机(motivation)这个概念是与工具性条件反射很相关的，它涉及到影响行为的方向和强度(活力)的过程。例如，Thorndike的猫实验的动机是逃出盒子，因为它们想要的食物在盒子外面。获得食物是对它们的回报，加强了让它们逃跑的动作的愿望。把动机的概念(涉及很多维度)与RL的计算视角精准地联系起来是困难的，但是在其中一些维度上却有明确的关联。

在某种意义上，RL智能体的回报信号是其动机的根本：智能体的动机是最大化累计回报。因此动机的一个关键方面就是什么才能使得智能体得到回报。在RL中，回报信号依赖RL智能体环境的状态以及智能体的动作。进一步地，正如我们在第一章中指出的，智能体环境的状态不仅仅包含对于机器而言外部的信息，也包括机器的内部信息。有些内部状态成分对应着心理学家所说的动物动机性状态，其影响着对动物的回报。例如，动物在饥饿的时候进食会得到更多的回报。状态依赖的概念很宽泛，能含纳很多对回报信号产生的起调制作用的类型。

值函数则提供了与心理学上动机概念进一步的连接。如果对动作选择最基本的动机是获得尽可能多的回报，那么对于一个使用值函数选择动作的RL智能体而言，一个很类似的动机就是沿着值函数梯度方向提高其值，使得选择的动作能够导向具有最高值的下个状态。对于这些智能体，值函数是决定其行为方向的主要驱动力。

动机的另一个维度是，一个动物的动机性状态不仅仅影响学习，也影响学习过后动物行为的强度(活力)。例如，学会在迷宫中找到食物后，一个饥饿的小鼠会比不饿的小鼠更快地跑向食物。动机的这个方面与我们所介绍过的RL框架没有很明确的联系。

我们接下来讨论US的起始在CS的结束之后的情形。RL算法中使用延迟的信号学习的算法，例如资格迹和TD方法，和心理学家关于动物在这种情形下之学习的假设有密切联系。

5. 延迟的强化

效果法则需要连结的反向作用，一些早期的对效果法则的批判就无法搞清当前是如何对过去造成影响的。而在动作和其引发的回报/惩罚之间具有相当的间隔时仍能学习的事实则放大了这一点。类似的，在经典条件反射中，US的起始在CS的结束之后仍是能学习的，我们把这个问题叫做延迟的强化，这和Minsky所说的学习系统的信用分配问题是相关的：如何对多个可能涉及到的引发成功的决策分配信用呢？本书中所介绍的RL算法包含两个解决这个问题的基本机制。第一个是使用资格迹，第二个就是使用TD方法学习值函数，从而提供对动作几乎立刻的回报或者提供立即的预测目标。这些方法都和动物学习理论中一些相似的机制有关联。

Pavlov指出，每个刺激都会在神经系统中留下轨迹，而这些轨迹在刺激消失后也会持续一段时间，他还提出在CS结束和US开始之间存在时间间隔时，刺激轨迹使得学习成为可能。到今天为止，这些条件下的条件反射被称为轨迹条件反射。假设当US到达时，CS的轨迹还没消失，那么就能产生学习作用了。我们在下一章会讨论关于轨迹机制的观点。

刺激轨迹也作为工具性条件反射中连结动作及其在一定时间间隔后的回报/惩罚的一种手段提出，例如在Hull影响性学习理论中，他用质量相关刺激轨迹解释他所称的动物目标梯度，也就是一个工具性条件反应的最大强度是如何随着动作与最后给出的回报之间的延迟时间的增加而衰减的。Hull假设，当动物采取行动后，其间隔刺激的轨迹按照时间的指数级衰减。仔细研究在这个时候可得到的动物学习数据，他假设轨迹的的影响在30~40秒后就衰减到0了。

本书中介绍的算法所使用的资格迹就像Hull的轨迹一样：它们是过去所访问状态或者状态动作对的随时间衰减的轨迹，资格迹是Klopf在其神经学理论中引入的，Klopf的资格迹是过去神经元之间突触活动随时间衰减的过程。Klopf的轨迹比指数衰减资格迹要更加复杂，我们之后再进一步讨论。

本书中介绍的算法既使用了资格迹，也使用了值函数，以使得在延迟的强化下还能够学习，从而与Hull的关于动物如何在这些条件下学习的假设关联起来。actor-critic框架清晰地表明了这种关联。critic使用TD算法来学习与系统当前行为相关的值函数，也就是预测当前策略的return。而actor则基于critic的预测更新当前的策略，也就是依赖于预测的变化。critic产生的TD误差则作为条件增强信号对actor发挥作用，提供了对性能的立即评估。估计动作值的算法，例如Q-learning或者Sarsa，也类似地使用TD学习法则使在延迟的增强下能够学习。

6. 认知映射

基于模型的RL使用环境模型，这与心理学家所说的认知映射有很多共同之处。回忆下第八章中我们介绍的规划和学习，环境模型就是任何能让智能体预测环境对动作的响应的东西(包含状态转移和回报)，而规划则是从环境模型中计算策略的任何过程。环境模型包含两个部分：状态转移部分和回报值部分，它们编码了某状态下执行某动作所引发的状态转移和回报信号的知识。基于模型的算法也是用于指导动作选择的，它会预测可能的动作轨迹的所引发的未来状态序列和回报序列，然后基于此决策，最简单的做法就是预测一系列可能的动作轨迹的效果并进行比较，选择出最好的那个。

动物是否利用环境模型？如果利用的话这些模型是什么样的？它们是怎么被学到的？在动物学习研究的历史中，这些问题是很有影响的。研究者提出了潜在学习(latent learning)的观点，这对学习和行为的刺激-响应(S-R)观点(策略学习的最简单的model-free视角)构成了挑战。在最早的潜在学习研究中，人们研究了在迷宫中奔跑的两组小鼠，对于实验组，最初是没有任何回报(食物)的(第一阶段)，但是到了第二阶段则突然把食物放到目标盒子中；对于控制组，食物则在两个阶段都在盒子中。问题是，实验组中的小鼠在第一阶段(没有回报的)能学习到一些东西吗？结果表明，虽然实验组小鼠在第一阶段看起来没学到什么，但是进入第二阶段后其表现会迅速追上控制组，也就是说，在无回报阶段，小鼠进行了潜在学习，这些学习在有必要的时候就会发挥作用。

心理学家Edward Tolman认为上述小鼠迷宫实验或类似实验表明，动物能在没有回报和惩罚时学习“环境的认知映射”，当动物收到激励去前往目标时，它们就可以利用这些认知映射。认知映射甚至能让小鼠规划一条与最初探索阶段不同的路线。关于这个结果的解释引发了心理学中行为学与认知学两个角度的长期争议。在现代术语中，认知映射不局限于时空布局的模型上，也指更一般的环境模型，或者说动物的任务空间。认知模型对潜在学习的解释就好像是说动物也使用基于模型的算法一样，且即使在没有明显的回报和惩罚时，该模型仍然能得到学习，而一旦出现回报和惩罚，则动物就能利用模型进行规划。

Tolman对动物学习认知映射的解释也就是：动物学习了刺激-刺激(S-S)，通过在探索环境过程中经历连续的刺激产生刺激之间的关联。在心理学中，这叫做预期理论：给定S-S关联，刺激的出现则产生了对下个刺激的预期。这很像控制工程师所说的系统辨识，在最简单离散时间情形下，训练样本就是S-S’对，S是状态，而下个状态S’则是标签。当S被观察到后，模型会产生对下个状态S’的预期。在包含动作时，模型对规划是更有帮助的，记为SA-S’，在状态S下执行动作A，预测下个状态S’。学习环境是如何产生回报的也是很有意义的，此时则记为S-R或者SA-R。这些是监督学习的所有形式，智能体无论是否收到回报信号都能学习类似认知映射的知识。

7. 习惯和目标引导的行为

model-free和model-based RL算法的区别对应着心理学家所谓的学到的行为模式的习惯控制和目标导引控制的区别。习惯就是受到适当的刺激激发且接下来能或多或少地自动执行的行为模式；目标导引行为，则是受到目标价值与行动及其结果之关系的知识控制的。有时候习惯也被称为受到以前的刺激所控制；目标导引行为则被称为受其结果的控制。目标导引控制是有优势的，当环境改变了对动物动作的回应时它能快速地改变动物地行为；而习惯行为则对环境的响应很快，但是无法对环境的变化快速调整。目标导向行为控制的发展可能是动物智力进化的一大进步。

在小鼠迷宫任务中，小鼠需要在有不同目标盒子的迷宫中穿行，每个目标盒子都有不同程度的回报。下图示意了实验场景的设置以及model-free和model-based决策策略的差别。从状态 $S_1$ 出发，小鼠可选的动作为左或者右，然后到达状态 $S_2$ 或者 $S_3$ ，在新状态上再次选择动作，最终得到不同程度的回报，得到回报后该episode就结束了。model-free策略依赖于存储的状态-动作对的值，这些动作值表示小鼠在该状态执行某动作后能得到的最大回报的期望，是通过多次尝试得到的。当值变得足够好的时候，小鼠就可以不探索了，直接在每个状态下选择最大值的那个动作就可以了；model-free也可以直接存储一个策略(策略梯度思想)。但是无论哪种model-free方法，都是不依赖环境模型的，没必要去咨询一个状态转移模型，也不需要学习目标盒子的特征与其能带来的回报之间的关联。
在这里插入图片描述
而对于model-based的策略，则使用包含状态转移与回报两个模型的环境模型。状态转移模型是一个决策树，而回报模型则将目标盒子与其能带来的回报值相关联。基于模型的智能体可以在其当前状态下利用模型对未来进行模拟，从而找到能通向最高回报的路径。直接比较最终的回报值是planning中很简单的一种方法。

当model-free智能体的环境对其动作的反应发生变化时，智能体就必须在改变后的环境中获取新的经验，从而更新自己的策略或者值函数。例如，如果改变上述小鼠实验中一个目标盒子中的回报，那么小鼠就不得不重新遍历这个迷宫多次以发现这个变化，然后据此修正其策略或者值函数。也就是，对于model-free的智能体来说，如果要改变策略中某个状态/动作的值，它必须去访问那个状态/状态动作对，从而得到改变行为之后的值。

而model-based智能体则好很多，能容忍环境的变化。模型的变化会自动地改变策略。规划能确定出环境变化导致地后果，而与智能体自身地经验没有关联。例如，对于上述小鼠实验，如果我们把 $S_2$ 右侧的回报值改为1，那么由于在之前的模型中这个值是最好的，小鼠还是会前往这个位置，但是会立刻发现这个值变化了，从而更新了回报模型，并在下一轮中会基于新的模型改变自身行动。

以上逻辑是动物的结果贬值实验(outcome-devaluation experiments)的基础。这些实验的结果从侧面解释了动物到底是基于目标导引控制学习的还是仅仅学习了一个习惯。结果贬值实验就像潜在学习实验一样，都是在实验阶段变化的时候使回报也变化。

最早由Adams和Dickinson做了这个类型的实验，他们通过工具性条件反射训练小鼠，直到小鼠能积极地按压获得糖丸的训练腔中的按钮。然后把按钮去掉并放置非偶然性的食物，使得糖丸与小鼠的动作脱钩。在15分钟后，将小鼠分成两组，对其中一组注射使之恶心的氯化锂。以上过程重复三轮，发现，被注射的小鼠不再去吃非偶然性的食物了，这意味着糖丸的回报值降低了。下一阶段则在一天后进行，再次把小鼠放到腔中，并进行一次消失性训练：把按钮放回去，但是按下按钮不再出现食物。结果表明，被注射过的小鼠的反应降低了很多。注意，虽然小鼠被注射过，但是其并不是针对按下按键获得食物这个情形进行的，但是仍然造成了影响。

Adams和Dickinson总结到，被注射的小鼠把按下按键与头晕结合了起来，即通过认知映射把按下按钮和糖丸联系，再把糖丸和头晕联系。因此，在消失实验中，小鼠能够意识到按下按钮会出现不希望发生的事情。这其中的要点是，小鼠并没有直接经历按下按钮导致恶心的经验！小鼠看起来是能够把行为性选择导致结果的知识和结果引发的回报的知识结合起来，并能因此改变自身的行为。不是每个心理学家都同意这种实验的认知角度的解释，这也不是解释这个现象的唯一方式，但是model-based的规划解释已经被广泛接受了。

可以同时使用model-free和model-based算法。我们直到，如果有足够的重复，目标导向的行为就会趋向于转变为习惯。实验表明，这对于小鼠也会出现。Adams做了一个实验，以研究长期的训练是否会把目标导引的行为转变为习惯性行为。Adams在对小鼠进行结果贬值实验的第一个阶段对小鼠进行不同时间的训练，如果训练时间更长的小鼠的结果衰减效果与其他相比差，那么就说明了确实有转换为习惯性行为的趋势。结果表明，在注射氯化锂使之恶心阶段，两组小鼠都降低了糖丸的回报值；在消失实验中，则过训练的小鼠明显地减弱了衰减效果，实际上他们虽然曾注射氯化锂，但是仍然会去按键。这个结果表明，没有过训练的小鼠是受目标导引驱动的，而过训练的小鼠则是受习惯导引的。

从计算的视角看待这个现象以及其他类似的结果很有启发性，例如为什么有时候希望动物受习惯驱动，有时候又希望其受目标驱动呢？为什么通过更长时间的学习会导致驱动方式发生变化呢？尽管动物不可能真的使用本书所介绍的那些算法，但是我们能从很多RL算法中的权衡折中过程得到关于动物行为的启发。计算神经科学家Daw, Niv, 和Dayan提出，动物实际上是同时使用model-free和model-based过程的。每个过程都给出一个动作，然后根据两个过程的置信度确定到底使用哪个。在学习的早期，model-based的规划过程更可信，因为它实际上是将一系列短期预测串了起来，而短期预测只需要很少的经验信息就能很准确；但是随着继续训练，model-free过程则变得越来越可信，这是因为规划过程依赖模型，而模型总是有误差的，并且模型也会因剪枝作用被简化，以便于高速的规划。根据这个思想，随着训练加深，指导动物行为的则会从目标导引过度为习惯导引。目前关于这一点的研究还在继续。

model-free和model-based算法的差异在研究中是很有用，研究RL中这些算法，分析器优点和局限，可以指导未来心理学家关于行为性和目标导引性实验的开展。

8. 总结

本章的目标是讨论RL和心理学中动物学习的实验研究之间的关系，但是我们必须清楚，本书中介绍的RL算法并不试图对动物行为的细节建模。RL是用于探索理想情形抽象计算框架，是源于人工智能和工程视角的。但是很多基本的RL算法都受到了心理学理论的启发，在一些情形下，RL算法还对新的动物学习模型做出了贡献。本章介绍了这些关联中最显著的部分。

RL中的预测算法与控制算法的差异对应着动物学习理论中经典条件反射与工具性条件反射之间的差异。经典条件反射与工具性条件反射之间的主要差别在于，前者面向动物行为的增强性刺激是偶发的，而后者则不是。通过TD算法学习去预测对应着经典条件反射，并且我们把经典条件反射中的TD模型描述为了RL原则解释动物学习的一些细节的实例。这个模型通过引入单个试验中事件影响学习的时间维度泛化了影响深远的Rescorla–Wagner模型，并且解释了二阶条件反射(增强性刺激变成了增强本身)。这也是对大脑中多巴胺神经元之活动的最有影响力的观点的基础。

通过反复试验学习是RL中控制过程的基础。我们介绍了一些Thorndike的猫及其它动物实验的一些细节，引出了他的效果法则(Law of Effect)。我们指出，在RL中，不必把探索局限于“盲目的搜索”，完全可以通过基于本能和已经学到的知识的一些成熟方法生成试验，只要带有一定的探索性就行。我们介绍了B. F. Skinner称为shaping的训练方法，也就是逐渐改变回报以训练动物逐渐接近期望的行为。对于动物训练而言，shaping不仅仅是不可或缺的，也是训练RL智能体的有效工具。这也和动物的动机性状态的想法有关。

本书介绍的RL算法包含两个基本的解决延迟强化的机制：资格迹和通过TD算法学到的值函数。这两个机制都在动物学习理论中有类似的理论。资格迹与刺激迹的早期理论相似，值函数则与几乎能提供立即评估反馈的二阶强化有关。

下一个关联之处就是RL中的环境模型与心理学中的认知映射。二十世纪中叶的实验表明，动物能把学习到的认知映射作为后续状态-动作关联的备选，并最终用其指导行为，尤其是当环境意外变化的时候。RL中的环境模型就像认知映射，可以通过监督学习方法得到且不需要回报信号，而学到的模型可以用来规划。

RL中model-free与model-based算法之间的差异对应着心理学中习惯性行为和目标导引行为之间的差异。model-free算法通过存储的策略或者值函数信息决策，而model-based方法则使用智能体环境的模型进行规划，根据规划的结果决策。结果贬值实验告诉我们动物行为到底是由习惯导引还是由目标导引。RL理论帮助理清了这些想法。

动物学习告诉我们，RL作为一种机器学习类别，应该向着设计和理解高效的学习算法发展，而不是向着重复或解释动物行为的方向发展。我们聚焦于动物学习中与解决预测和控制问题的方法有清晰关联的方面，凸显出RL和心理学两个流派中思想的流动，而不去过多关注心理学中的行为性细节和那些争议。未来，RL理论和算法的发展可能会更多地利用动物学习中那些能作为计算性工具特性。

很多RL与心理学领域及其它行为科学的关联超出了本章的内容，我们极大地省略了关于心理学中决策的讨论，而决策则是在学习之后如何去选择动作的过程。我们也没有讨论行为的生态和进化方面，也就是动物与动物之间，动物与物理世界之间是如何相联系的？他们的行为是如何对进化适应性做出贡献的？优化、MDPs和DP是这个领域中最重要的角色，我们对智能体和动态环境之间的交互与对智能体在复杂生态下行为的研究密切关联。多智能体RL在本书中没有涉及，与这种"生态"是有关联的。但是，强化学习绝不应被解释为无视进化观点，强化学习并不意味着学习和行为的白板。实际上，经验和工程应用对于RL就如进化对于动物是一样的。

参考文献

[1].Sutton书。

OneLonelyTree

发布了27 篇原创文章 · 获赞 61 · 访问量 9095

私信关注

[归纳]强化学习导论 - 第十四章：心理学