文献题目：Multi-Agent Reinforcement Learning is A Sequence Modeling Problem
时间：2022
代码：https://github.com/PKU-MARL/Multi-Agent-Transformer.

摘要

GPT 系列和 BERT 等大序列模型（SM）在自然语言处理、视觉和最近的强化学习中表现出了突出的性能和泛化能力。一个自然而然的后续问题是如何将多代理决策也抽象为序列建模问题，并从 SM 的繁荣发展中受益。在本文中，我们介绍了一种名为多智能体变换器 (MAT) 的新型架构，它有效地将协作式多智能体强化学习 (MARL) 转化为 SM 问题，其中目标是将智能体的观察序列映射到智能体的最佳动作序列 . 我们的目标是在 MARL 和 SM 之间架起桥梁，以便为 MARL 释放现代序列模型的建模能力。我们的 MAT 的核心是编码器-解码器架构，它利用多代理优势分解定理将联合策略搜索问题转化为顺序决策过程；这只为多代理问题呈现线性时间复杂度，最重要的是，赋予 MAT 单调性能改进保证。与 Decision Transformer 等现有技术不同，Decision Transformer 仅适合预先收集的离线数据，MAT 以在线策略方式通过环境中的在线试错法进行训练。为了验证 MAT，我们对星际争霸 II、多代理 MuJoCo、灵巧手操作和 Google Re 搜索足球基准进行了大量实验。结果表明，与包括 MAPPO 和 HAPPO 在内的强大基线相比，MAT 实现了卓越的性能和数据效率。此外，我们证明了无论代理人数量如何变化，MAT 在未见过的任务上都是一个优秀的 few-short 学习者。请参阅我们的项目页面，网址为 https://sites.google.com/view/multi-agent-transformer(1)。

引言

多智能体强化学习 (MARL) [44, 8] 是一个具有挑战性的问题，因为它的难度不仅来自于识别每个智能体的策略改进方向，而且还来自于将智能体的策略更新联合起来，这对整个团队应该是有益的 . 最近，由于引入了分散执行的集中训练 (CTDE) [11、45]，多智能体学习中的这种困难得到了缓解，它允许智能体在训练阶段访问全局信息和对手的动作。该框架能够成功开发直接继承单代理算法的方法。例如，COMA 将策略梯度 (PG) 估计替换为多代理 PG (MAPG) 对应项 [11]，MADDPG 将确定性策略梯度扩展到具有集中式评论家的多代理设置中 [20, 34]，QMIX 利用深度 Qnetworks 实现分散代理，并引入集中式混合网络进行 Q 值分解 [29、36、26]。 MAPPO 赋予所有代理相同的一组参数，然后通过信任区域方法进行训练 [46]。 PR2 [42] 和 GR2 [43] 方法在 CTDE 框架下进行递归推理。然而，这些方法无法涵盖多智能体交互的全部复杂性；事实上，其中一些在最简单的合作任务中表现不佳 [15]。为了解决这个问题，提出了多主体优势分解定理 [15，定理 1]，它捕捉了不同主体如何对回报做出贡献，并通过顺序决策过程方案提供了合作出现背后的直觉。在此基础上，推导了 HATRPO 和 HAPPO 算法 [15、17、16]，由于分解定理和顺序更新方案，它们为 MARL 建立了新的最先进的方法。然而，它们的局限性在于代理人的政策并不知道发展合作的目的，并且仍然依赖于精心设计的最大化目标。理想情况下，代理团队应该通过设计意识到他们训练的联合性，从而遵循一个整体有效的范例——一个尚未提出的理想解决方案。
近年来，序列模型（SM）在自然语言处理（NLP）方面取得了实质性进展[27]。例如，基于自回归 SM 的 GPT 系列 [3] 和 BERT 模型 [9] 在广泛的下游任务上表现出了卓越的性能，并在少样本泛化任务上取得了出色的性能。尽管 SM 由于其与语言的顺序属性自然契合而主要用于语言任务，但序列方法不仅限于 NLP，而是一种广泛适用的通用基础模型 [2]。例如，在计算机视觉 (CV) 中，可以将图像拆分为子图像并将它们按序列对齐，就好像它们是 NLP 任务中的标记一样 [9、10、12]。尽管通过 SM 解决 CV 任务的想法很简单，但它是一些性能最佳的 CV 算法的基础 [38、41、39]。此外，最近，顺序方法开始产生强大的多模态视觉语言模型，如 Flamingo [1]、DALL-E [28] 和 GATO [30]。
随着 Transformer [40] 等有效且富有表现力的网络架构的出现，序列建模技术也引起了 RL 社区的极大关注，这导致了基于 Transformer 架构的一系列成功的离线 RL 开发 [5,14,30,23] ]. 这些方法在解决一些最基本的 RL 训练问题方面显示出巨大的潜力，例如长期信用分配和奖励稀疏性 [37、24、25]。例如，通过以纯监督方式在预先收集的离线数据上训练自回归模型，Decision Transformer [5] 绕过了通过动态规划计算累积奖励的需要，而是根据期望的回报、过去的状态和行动生成未来的行动 . 尽管取得了显着的成功，但这些方法都没有被设计用来模拟多代理系统中最困难的（也是 MARL 独有的）方面——代理的交互。事实上，如果我们简单地赋予所有智能体一个 Transformer 策略并独立训练它们，它们的联合性能仍然不能保证得到改善 [15，命题 1]。因此，虽然有无数强大的 SM 可用，但 MARL（一个将从 SM 中受益匪浅的领域）并没有真正利用它们的性能优势。那么要问的关键研究问题是
我们如何通过序列模型对 MARL 问题进行建模？
在本文中，我们采取了几个步骤来对上述研究问题提供肯定的答案。我们的目标是通过强大的顺序建模技术增强 MARL 研究。为了实现这一目标，我们首先提出了一种新颖的 MARL 训练范式，该范式在协作 MARL 问题和序列建模问题之间建立了联系。新范式的核心是多智能体优势分解定理和顺序更新方案，有效地将多智能体联合策略优化转化为顺序策略搜索过程。作为我们发现的自然结果，我们引入了多代理转换器 (MAT)，这是一种通过 SM 实现通用 MARL 解决方案的编码器-解码器架构。与 Decision Transformer [5] 不同，MAT 是基于策略方式的试验和错误在线训练的；因此，它不需要预先收集演示。重要的是，多智能体优势分解定理的实现确保了 MAT 在训练过程中享有单调的性能提升保证。 MAT 为合作 MARL 任务建立了一个新的最先进的基线模型。我们通过在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和 Google Research Football 的基准上评估 MAT 来证明这种说法是正确的；结果表明，MAT 比 MAPPO [46]、HAPPO [15]、QMIX [29] 和 UPDeT [13] 等强基线具有更好的性能。最后，我们表明 MAT 在任务泛化方面具有巨大的潜力，无论新任务中的代理数量如何。

预训练

在本节中，我们首先介绍合作 MARL 问题公式和多代理优势分解定理，它们是我们工作的基石。然后，我们回顾与 MAT 相关的现有 MARL 方法，最后让读者熟悉 Transformer。

问题表述

协作 MARL 问题通常由马尔可夫游戏 $h_N,O,A,R,P,γi>$ [19] 建模。 $N = \{1, . . . , n\}$ 是agent的集合,
是agent的局部观察空间的乘积,即联合观察空间,

是agent的动作空间的乘积,即联合动作空间， $R : O × A → [−R_{max}, R_{max}]$ 为联合奖励函数， $P : O \times A \times O \to R$ 为转移概率函数， $γ \in [0, 1)$ 为折扣因子。在时间步 $t \in N$ ，代理 $i \in N$ 观察到一个观察 $o^i_t ∈ O^i （o = (o^1, . . . , o^n)$ 是一个“联合”观察）

为了符号方便，我们省略了定义以全局状态为输入并为每个代理输出局部观察的代理观察函数，而是直接定义代理的局部观察。
并根据其策略 $π_i$ 采取行动 $a^i_t$ ，这是智能体联合策略 $π$ 的第 $i$ 个组成部分。在每个时间步，所有代理都根据他们的观察同时采取行动，没有顺序依赖性。过渡核 P 和联合策略导致（不正确的）边际观测分布

。在每个时间步结束时，整个团队收到联合奖励 $R(o_t, a_t)$ 并观察 $o_{t+1}$ ，其概率分布为 $P(·|o_t, a_t)$ 。遵循这个无限长的过程，代理人获得折扣累积回报。在这里插入图片描述

多智能体优势分解定理

智能体使用 $Q_π(o, a)$ 和 $V_π(o)$ 来评估动作和观察值，定义为
目标的共同性导致与信用分配问题相关的困难——在获得共享奖励后，个体代理无法推断出他们自己对团队成功或失败的贡献 [4]。事实上，应用传统的 RL 方法（仅使用上述价值函数）会导致训练障碍，例如多代理策略梯度 (MAPG) 估计的方差不断增加 [17]。因此，为了解决这些问题，已经开发了局部价值函数 [21] 和反事实基线 [11] 的概念。在本文中，我们使用此类最一般的概念——多代理观察值函数 [15]。也就是说，对于任意不相交的、有序的代理子集 $i_{1:m} = \{i_1, . . . , i_m\}$ 和 $j_{1:h} = \{j_1, . . . , j_h\}$ , 对于 $m, h \leq n$ , 我们定义多智能体观察值函数为
上面的数量描述了如果代理 $i_{1:m}$ 采取联合行动 $a^{i_{1:m}}$ ，一旦 $j_{1:h}$ 采取了 $a^{j_{1:h}}$ ，联合行动 $a$ 将比平均水平好/坏多少。同样，当 $h = 0$ 时，优势将 $a^{i_{1:m}}$ 的值与整个团队的基线值函数进行比较。这种代理人行为的价值函数表示能够研究他们之间的相互作用，以及分解联合价值函数信号，从而有助于减轻信用分配问题的严重性 [29、35、22]。等式（3）的见解是通过以下定理完成的。
定理 1（Multi-Agent Advantage ecomposition [17]）。设 $i_{1:n}$ 是代理的排列。然后，对于任何联合观察 $o = o \in O$ 和联合行动 $a = a^{i_{1:n}} ∈ A$ ，以下等式始终成立，无需进一步假设，
重要的是，这个定理提供了一种直觉来指导渐进式改进动作的选择。假设代理 $i_1$ 选择一个具有积极优势的动作 $a^{i_1}$ ， $A^{i_1}_π (o, a^{i_1} ) > 0$ 。然后，假设对于所有 $j = 2 ， . . . . ., n$ , 智能体 $i_j$ 知道其前任的联合动作 $a^{i_{1:j−1}}$ 。在这种情况下，它可以选择优势 $A^{i_j}_π (o, a^{i_{1:j−1}}, a^{i_j} )$ 为正的动作 $a^{i_j}$ 。总而言之，该定理确保联合行动 $a^{i_{1:n}}$ 具有正优势。此外，请注意联合动作是在 $n$ 个步骤中选择的，每个步骤都搜索一个个体代理的动作空间。因此，此搜索的复杂性在动作空间的大小上是相加的，

。如果我们直接在联合动作空间中执行搜索，我们将浏览一组乘法大小， |A| =Qni=1 |Ai|

。稍后，我们将基于这一见解设计一个 SM，该 SM 可以有效地优化联合策略，逐个代理，而无需立即考虑联合行动空间。

MARL 中的现有方法

我们现在简要总结两种最先进的 MARL 算法。它们都建立在近端策略优化 (PPO) [33] 之上——一种以其简单性和性能稳定性而闻名的 RL 方法。
MAPPO [46] 是第一个也是最直接的在 MARL 中应用 PPO 的方法。它为所有代理配备一组共享参数，并使用代理的聚合轨迹来更新共享策略；在第 $k + 1$ 次迭代中，它通过最大化 clip 目标来优化策略参数 $θ_{k+1}$
其中剪辑运算符剪辑输入值（如有必要），使其保持在区间 $[1−\varepsilon , 1+\varepsilon ]$ 内。然而，强制参数共享等同于在联合策略空间上施加约束 $θ^i = θ^j,∀i,j∈N$ ，这可能导致呈指数级恶化的次优结果 [15]。这激发了异构代理信赖域方法（例如 HAPPO）的更有原则的发展。
HAPPO [15] 目前是充分利用定理 (1) 实现具有单调改进保证的多智能体信赖域学习的 SOTA 算法之一。在更新期间，智能体随机选择一个排列 $i_{1:n}$ ，然后按照排列中的顺序，每个智能体 $i_m$ 选择 $π^{i_m}_{new} = π^{i_m}$ 以最大化目标
其中 $r(π^{i_m}) = π^{i_m}(a^{i_m}|o)/π^{i_m}_{old} (a^{i_m}|o)$ 。请注意，期望接管了新更新的先前智能体的策略，即 $π^{i_{1:m−1}}_{new}$ ；这反映了一种直觉，即根据定理 (1)，代理 $i_m$ 对其前面的代理 $i_{1:m−1}$ 作出反应。然而，HAPPO 的一个缺点是代理的策略必须遵循排列中的顺序更新方案，因此不能并行运行。

变压器模型

Transformer [40] 最初是为机器翻译任务设计的（例如，输入英语，输出法语）。它维护一个编码器-解码器结构，其中编码器将令牌的输入序列映射到潜在表示，然后解码器以自回归方式生成一系列所需的输出，其中在推理的每个步骤中，Transformer 将所有先前生成的标记作为输入。 Transformer 中最重要的组件之一是缩放点积注意力，它捕获输入序列的相互关系。注意函数写为
其中Q、K、V对应queries、key、value的向量，可以在训练中学习， $d_k$ 代表Q和K的维度。Self-attentions是指Q、K、V共享同一套参数。
受注意力机制的启发，UPDeT [13] 通过将每个代理的观察解耦为一系列观察实体，将它们与不同的动作组匹配，并使用基于 Transformer 的函数对匹配的观察实体之间的关系进行建模，以便在 MARL 问题中更好地表示学习。除此之外，基于定理 (1) 中描述的顺序属性和 HAPPO [15] 背后的原理，可以直观地考虑另一种基于 Transformer 的多智能体信赖域学习实现。通过将代理团队视为一个序列，Transformer 架构允许我们对具有可变数量和类型的代理团队进行建模，同时避免 MAPPO/HAPPO 的缺点。我们将更详细地描述如何通过序列模型解决协作 MARL 问题。

MARL 和序列模型之间的惊人联系

为了建立 MARL 和序列模型之间的联系，定理（1）提供了从 SM 角度理解 MARL 问题的新角度。如果每个智能体都知道其前任的任意决策顺序的动作，则智能体的局部优势总和 $A^{i_j}_π (o, a^{i_1:m−1}, a^{i_m})$ 将恰好等于联合优势 $A^{i_{1:n}}_π (o, a^{i_{1:n}} )$ . 这种跨智能体的有序决策设置简化了它们联合策略的更新，其中最大化每个智能体自身的局部优势等同于最大化联合优势。这样一来，代理在策略更新过程中就不用再担心其他代理的干扰了；局部优势函数已经捕获了代理之间的关系。定理 (1) 揭示的这一特性启发我们为 MARL 问题提出了一种多智能体顺序决策范式，如图 (1) 所示，我们为智能体分配了任意决策顺序（每次迭代一个排列）；每个代理人都可以访问其前辈的行为，然后根据这些行为做出最佳决策。这种顺序范式促使我们利用顺序模型（例如 Transformer）来明确捕获定理 (1) 中描述的代理之间的顺序关系。
图 1：传统的多智能体学习范式（左），其中所有智能体同时采取行动，而多智能体顺序决策范式（右），其中智能体按照顺序采取行动，每个智能体负责前面智能体的决策如红色箭头所示。
在定理 (1) 的支持下，序列建模降低了 MARL 问题随着代理数量从乘法到加法的复杂性增长，从而呈现线性复杂性。在 Transformer 架构的帮助下，我们可以使用统一的网络对异构代理的策略进行建模，但在不同位置区别对待每个代理，从而确保高采样效率，同时避免 MAPPO 面临的指数级恶化结果。此外，为了保证联合策略的单调改进，HAPPO 必须在训练过程中逐一更新每个策略，通过利用 $π^{i_1}, ..., π^{i_{m−1}}$ 的先前更新结果来改进 $π^{i_m}$ ，这对于大型代理的计算效率至关重要。相比之下，Transformer 架构的注意力机制允许在缓冲区中对 ground truth 动作 $a^{i_0}_t, ..., a^{i_n−1}_t$ 进行批处理，以同时预测 $a^{i_1}_t, ..., a^{i_n}_t$ 和更新策略，这显着提高了训练速度，并使其适用于大型代理。此外，在智能体的数量和类型不同的情况下，SM 可以通过其对具有灵活序列长度的序列建模的能力将它们合并到一个统一的解决方案中，而不是将不同的智能体数量视为不同的任务。为了实现上述想法，我们在下一节中介绍了一个名为 Multi-Agent Transformer 的实用架构。

多代理转换器

为了实现 MARL 的序列建模范例，我们的解决方案是多代理转换器 (MAT)。应用 Transformer 架构的想法来自这样一个事实，即代理的观察序列输入 $o^{i_1}, . . . , o^{i_n} )$ 和代理的动作序列输出 $a^{i_1}, . . . , a^{i_n} )$ 之间的映射是类似于机器翻译的序列建模任务。正如定理 (1) 所回避的那样，行动目标取决于所有先前代理人的决策 $a^{i_{1:m−1}}$ 。因此，我们在图 (2) 中的 MAT 由一个编码器和一个解码器组成，编码器学习联合观察的表示，解码器以自动回归的方式为每个单独的代理输出动作。
图 2：MAT 的编码器-解码器架构。在每个时间步，编码器接收一系列代理的观察并将它们编码为一系列潜在表示，然后传递给解码器。解码器以顺序和自回归的方式生成每个代理的最佳动作。屏蔽的注意块确保代理只能在训练期间访问其前面的代理的操作。我们在附录 A 中列出了 MAT 的完整伪代码，在 https://sites.google.com/view/multi-agent-transformer 中显示了 MAT 动态数据流的视频。
Dynamic Process and Source Code of MAT
Please refer to https://sites.google.com/view/multi-agent-transformer
我们用 $φ$ 表示其参数的编码器以任意顺序获取一系列观察值 $o^{i_1}, . . . , o^{i_n} )$ ，并将它们传递给几个计算块。每个这样的块都包含一个自我注意机制和一个多层感知器（MLP），以及防止梯度消失和网络随着深度的增加而退化的剩余连接。我们将观察的输出编码表示为 $(\hat o^{i_1}, . . . , \hat o^{i_n} )$ ，它不仅对代理的信息 $i_1, . . . , i_n)$ 进行编码，还对表示代理交互的高级相互关系进行编码。为了学习表达表示，在训练阶段，我们使编码器逼近价值函数，其目标是通过以下方式最小化经验贝尔曼误差
其中 $φ ¯$ 是目标网络的参数，它是不可微分的并且每隔几个时期更新一次。
我们用 $θ$ 表示其参数的解码器传递嵌入式联合动作 $a^{i_{0:m−1}} , m =\{1, . . . n\}$ （其中 $a^{i_0}$ 是指示解码开始的任意符号）到解码块序列。至关重要的是，每个解码块都带有一个掩蔽的自注意力机制，其中掩蔽确保对于每个 $i_j$ ，只在第 $i^{th}_r$ 和第 $i$ 个 $j$ 个动作头之间计算注意力，其中 $r < j$ 以便可以维持顺序更新方案。然后是第二个掩蔽注意力函数，它计算动作头和观察表示之间的注意力。最后，该块以 MLP 和跳过连接结束。最后一个解码器块的输出是联合动作的表示序列， $\{\hat a^{i_0:i−1}\}^m_{i=1}$ 。这被馈送到输出 $i_m$ 动作概率分布的 MLP，即策略 $π^{i_m}_θ(a^{i_m} |\hat o^{i_{1:n}} , a^{i_{1:m−1}} )$ . 为了训练解码器，我们最小化以下剪裁 PPO 目标
其中 $\hat A_t$ 是联合优势函数的估计值。可以应用
$$\hat V_t =1nPnm=1 V (^oimt)$
的广义优势估计 (GAE) [32] 作为联合价值函数的稳健估计。值得注意的是，动作生成过程在推理和训练阶段是不同的。在推理阶段，每个动作都是自回归生成的，在某种意义上，目标将再次插入解码器以生成目标+1（从 $a^{i_0}$ 开始到 $a^{i_{n−1}}$ 结束）。而在训练阶段，所有动作的输出 $a^{i_{1:n}}$ 可以并行计算，因为 $a^{i_{1:n−1}}$ 已经被收集并存储在回放缓冲区中。
位于 MAT 核心的注意力机制使用权重矩阵对观察和动作进行编码，该权重矩阵通过乘以嵌入式查询 $q^{i_1}，...，q^{i_n}）$ 和键 $k^{i_1}，...，k^{i_n}）$ ，其中每个权重 $w(q^{i_r}, k^{i_j} ) = <q^{i_r}, k^{i_j}>$ 。嵌入值 $v^{i_1}, . . . , v^{i_n} )$ 与权重矩阵相乘以输出表示。编码器中的未屏蔽注意力使用全权重矩阵来提取代理之间的相互关系，即 $\hat o^{i_{1:n}}$ ，解码器中的屏蔽注意力使用三角矩阵捕获 $a^{i_{1:m}}$ ，其中 $w(q^{i_r}, k^{i_j}) = 0$ r < j（参见附录 A 中的可视化图示）。通过适当的掩蔽注意机制，解码器可以安全地输出策略 $π^{i_{m+1}}_θ(a^{i_{m+1}} |\hat o^{i_{1:n}} , a^{i_{1:m}})$ ，从而完成定理 (1) 的实现。
单调改进保证。 MAT 代理 $i_m$ 通过调节其对代理的策略比率来优化以代理 $i_{1:m−1} 的新决策为条件的信任域目标（见等式（5））。因此，它单调地增加联合回报，就像它遵循 HAPPO [15，定理 2] 的顺序更新方案一样。然而，与该方法相反，MAT 模型不需要等到它的前辈进行更新，也不需要使用它们更新后的动作分布来进行重要性采样计算。事实上，由于所有智能体的动作都是 MAT 的输出，它们的裁剪目标可以并行计算（在训练期间），因此在时间复杂度上优于 HAPPO。最后，为了确保限制性联合策略不会激励任何代理人改变其策略（纳什均衡），MAT 需要在每次迭代时改变更新的顺序，这与 HAPPO [15] 中的发现一致定理3]。

【强化学习论文】多智能体强化学习是一个序列建模问题

摘要

引言

预训练