DeepMind用元强化学习框架探索多巴胺在学习过程中的作用

译者 | 周小璐

编辑｜Debra

AI 前线导读：最近，AI 系统霸占了很多电子游戏的榜首，比如雅达利公司（Atari）的经典游戏 Breakout 和 Pong。尽管 AI 在电子游戏中的表现不俗，但其依旧依赖长时间的游戏练习，才能达到或超越人类玩家。相反，我们很快就能掌握一款之前从未玩过的游戏的基本玩法。

更多干货内容请关注微信公众号“AI 前线”，（ID：ai-front）

为何大脑能在短时间内取得如此大的进步，这个问题引起了我们对于元学习理论（meta-learning，也就是学会学习）的研究。普遍认为，我们的学习是基于 2 个时间尺度的，从短期来看我们专注于学习具体的实例，但从长期来看我们学习抽象的技能或者要完成一项任务需要的规则。两者结合可以帮助我们高效学习，并将这些知识快速和灵活地应用到新的任务中。在 AI 系统中重建元学习的模型，我们称之为元强化学习（meta-reinforcement learning），已经被证明在推动快速、单次的智能体学习中非常有效（参见我们的论文）。但是，是什么样的机制能让大脑内进行如此复杂的处理在神经系统学科中依旧是个未解之谜。

视频：v.qq.com/x/page/c064…

在我们最新的关于自然神经系统科学的论文中，使用了 AI 领域中的元强化学习框架，用来研究大脑中多巴胺在我们学习过程中起到的作用。多巴胺——通常被认为是大脑愉悦的信号——曾经被认为和 AI 强化学习算法中用到的奖赏预测误差信号有同等的功效。这些系统在奖励的推动下反复试错，我们提出多巴胺的作用不仅仅是用奖励激励我们从过去的行为中学习，它扮演一个不可或缺的角色，尤其在前额皮质区域，让我们能高效、快速和灵活地在新任务中进行学习。

为了证实这个理论，我们虚拟重建了神经系统科学中的 6 个元学习实验，每个实验都需要一个代理去完成任务，任务的底层规则都是一样的，在某些维度上会有所差别。我们训练了一个递归神经网络（扮演多巴胺的角色），然后比较递归网络中的活动动态和在之前神经系统科学实验中的真实数据。结果证明递归网络是很好的元学习代理，因为它们能够内化过去的行为和观察结果，然后在进行多种任务训练的同事吸收这些实验。

我们重建的实验之一被称为哈洛实验（Harlow Experiment），这个实验在 19 世纪 40 年代被用来探索元学习的概念。在最初的实验中，向一组猴子展示他们不熟悉的 2 个物体，挑选出其中的一个会被给予食物奖励。这 2 个物体会向他们展示 6 次，每次的左右顺序都是随机的，猴子们必须学习到底哪个物体会给他们带来奖励。接下来还会有另外 2 个新的物品展示给他们，同样只有一个物品会带来食物奖励。在训练的过程中，猴子们发现了一种可以挑选到奖励相关的物品的策略：它们学着在第一次选择时随机选择，后面根据奖励反馈情况选择哪个特别的物品，而不是根据左右位置进行挑选。这个实验证明了猴子可以内化任务的底层规则，并学习抽象的规则架构，也就是事实上的学会学习。

我们用一个虚拟电脑屏幕和随机挑选的图片模仿了一个非常类似的实验，我们发现我们的元强化学习代理人和哈洛实验中的动物表现出了非常类似的行为，甚至展示之前完全没见过的新图片时也会有类似的行为。

在我们虚拟重建哈洛实验时，代理人必须将关注点转向它认为与奖励相关的目标。

实际上，我们发现元强化学习代理人可在又不同规则和架构的多个领域的任务中，学习快速适应。而且由于这个网络学习如何适应各种各样的任务，它也在学习如何高效学习的普遍规则。重要的是，我们看到在递归网络中的大部分学习，都支持了我们的提案——多巴胺在元学习过程中比我们之前认为的扮演更不可或缺的角色。传统上多巴胺被认为是在前额叶系统中增强突触的连接，加强特定的行为。在 AI 中，这意味着多巴胺类似的奖赏信号，在其学习正确解决问题的时候，改变了神经网络中人工突触的权重。

但是，在我们的实验中，神经网络的权重被冻结了，意味着在学习过程中它们不可能被改变，但元强化学习代理依然能够解决和适应新的任务。说明类似多巴胺的奖励不光被用来改变权重，而且传达和编译了抽象任务和规则结构的重要信息，使得代理能够更快速地适应新的任务。

神经科学家很早就观察到了前额皮质中神经激活的类似模式，这种模式能快速适应并且非常灵活，但是神经科学家们一直苦于寻找其背后的原理。前额皮质不依赖于缓慢的突触权重改变去学习规则结构，而是使用抽象的基于模式的信息直接编码为多巴胺，这个解释看起来更有说服力。

AI 中引起元强化学习的关键组成部分同样存在于大脑中，在证明这个假说的过程中我们形成了一个理论，不但和多巴胺和前额皮质的现有知识相符，也解释了神经系统科学和心理学领域中许多的未解之谜。尤其是，这个理论为很多问题带来了启示，比如大脑中如何出现结构化的、基于模型的学习，为什么多巴胺包含基于模型的信息，以及前额皮质中的神经元如何接收学习相关的信号。人工智能的成果被应用到神经系统学科和心理学中，向我们展示了一个领域可以为另一个领域带来的价值。展望未来，我们也预感神经系统学科和心理学也可以反哺人工智能，在设计新的模型学习强化学习代理时，从脑回路特定的组织中获得指导。

这项工作由 Jane X. Wang，Zeb Kurth-Nelson，Dharshan Kumaran，Dhruva Tirumala，Hubert Soyer，Joel Z. Leibo，Demis Hassabis 和 Matthew Botvinick 共同完成。

《自然神经科学》杂志论文：

https://www.nature.com/articles/s41593-018-0147-8.pdf

原文地址：

https://deepmind.com/blog/prefrontal-cortex-meta-reinforcement-learning-system/

DeepMind用元强化学习框架探索多巴胺在学习过程中的作用

猜你喜欢