读书笔记 - Clique-based Cooperative Multiagent Reinforcement Learning Using Factor Graphs

《Clique-based Cooperative Multiagent Reinforcement Learning Using Factor Graphs》

在许多情况下，代理不是独立的，而是与其他代理连接，代理相互交互以共同影响环境。有时，每个代理只能获取其附近环境的状态以及其邻居代理的行为。这种系统称为多代理系统（MAS）[5]。

如果代理人有共同的兴趣并协调完成任务，那么他们就是合作的，例如，无线网络代理商合作制定一个稳定的大联盟阵型，以便在每个链路的平均费率方面产生显着的收益[6]。
否则，如果每个代理商只追求自己的利益，那么它们就是竞争性的，例如，一对一格斗游戏中的代理商相互竞争以获得每个人的最大利润[7-8]。

在本文中，我们只处理合作代理。在MAS中，代理人必须从环境和其他代理中学习其策略。这使得学习系统更难以收敛。因此，MAS中的一个重要问题是如何使代理与其邻居的部分状态信息及行为进行合作[9-10]。

合作MAS中RL动力学的早期分析由Claus和Boutilier完成[13]。他们分析了双因素重复游戏中独立学习者的动态。此外，Tuyls [14]通过进化博弈论分析了独立的Q学习（IQL）。 Gomes和Kowalczyk [15]用ε-贪婪的探索分析了IQL。 Kianercy和Galstyan [16]用玻尔兹曼探索分析了IQL。这些结果为设计MARL算法提供了灵感。
事实上，MARL的大多数理论结果仅限于重复游戏。从马尔可夫决策过程和博弈论中得出，随机博弈被提出作为研究MARL的一般框架[17-18]。在此框架下，已经提出了许多MARL算法。例子是minimax-Q [17]，Friend-or-foe [19]，Nash-Q [20]，IGA [21]和Wolf-PHC [22]。

随着代理数量的增加，状态空间和联合行动空间迅速增长，这就是MARL中所谓的维数灾难问题。
自适应动态规划（ADP）【23-29】是一种通过使用神经网络逼近价值函数和策略来缓解此类问题的有效方法。
Bazzan等人【34-35】将交通信号灯代理分成小组以减少联合行动空间，并提出了一种在随机博弈stochastic games中协调多代理的方法。
Kok等人【36】提出了稀疏协作Q学习，其中全局Q值函数被分解为局部Q值函数，每个Q值函数仅依赖于状态和动作的所有变量的一小部分。每个代理都维护一个本地Q值函数，并使用max-plus算法【37】获得的贪婪联合动作对其进行更新。

但是，仍有两个问题需要充分解决:
首先，原始稀疏Q学习不与转换函数transition function一起使用，这通常意味着相对较低的学习速度。
其次，max-plus算法只能处理具有两个变量的局部Q值函数，这限制了全局函数分解的推广。

在本文中，我们的目标是解决可以分解为子任务的多任务系统的协调问题。
首先，估计转换函数并用于更新Q值函数，以减少学习时间。
其次，将代理划分为团cliques，每个团负责特定的子任务。
在这种情况下，全局Q值函数被分解为几个更简单的局部Q值函数的总和，这些函数可以包含两个以上的变量。这意味着可以根据问题考虑更灵活的分解。这种分解可以用因子图表示，并且通过max-plus算法以分布式方式获得贪婪联合动作greedy joint action。

本文的结构如下。
在第二节中，我们描述了分布式传感器网络（DSN）的协调问题。
第三节介绍随机游戏，并提供可能的流行MARL算法进行比较。
在第四节中，提出了使用因子图的基于clique的稀疏协作RL算法。我们将展示如何更新转换函数，如何将代理分解为派系，以及如何使用因子图来解决问题。
在第五节中，提出并比较了各种MARL算法的实验结果。
第六节给出了结论。

分布式传感器网络（DSN）

DSN问题是一个分布式优化问题，它是NIPS 2005基准测试研讨会的一部分[38]。
它由两个传感器阵列组成。图1示出了具有八个传感器的DSN，每个传感器具有三个动作，即，聚焦在其左侧，聚焦于其右侧或根本不聚焦。请注意，角传感器的动作范围不仅限于单元格。例如，即使焦点位于任何单元格之外，传感器0也可以将焦点对准其左侧。
在三个单元格内有两个目标移动。每个目标有相同的概率移动到其左侧单元格，移动到其右侧单元格或只是停留在原来的位置。这两个目标按照从左到右的顺序采取行动。每个单元一次最多可被一个目标占用。如果目标决定移出三个单元格之外或移动到已被另一个目标占据的单元格，它将保持原样。
在这里插入图片描述
每个目标在开始时具有最大能量值（即3）。如果至少有三个传感器聚焦在它所在的单元上，目标的能量将减少1，称为命中。如果它的能量值为0，称为捕获，它将从DSN消失而不占据任何单元。如果所有目标都被消除或经过300步，那么一轮就会完成。

每次聚焦动作都会产生-1的奖励。没有聚焦产生0的奖励。如果捕获是由四个传感器引起的，则具有三个最高指数的传感器分别奖励10。

传感器不知道是否发生了命中或捕获，但他们知道邻居的行为。目的是在一轮中获得尽可能多的累积奖励。

在本文中，两个目标最初位于两个随机单元格中。在每个步骤中，传感器首先做出动作并对目标起作用，产生中间状态intermediate state，然后轮到目标移动，转移到下一个状态。
很明显，直接奖励仅取决于中间状态，因为它们包含是否存在命中，捕获，聚焦或无焦点的信息。

在这个问题中，共有3^8 = 6561个动作和37个状态。
理论上，单代理RL算法可以学习一组代理的最优策略，如果它们被视为一个整体。然而有两个问题使得它不适合DSN问题:
首先，随着代理数量的增加，联合行动空间呈指数增长。
其次，在DSN问题中，每个代理都不可能观察到完整的环境状态，以及所有其他代理的动作。

接下来，我们介绍几种MARL算法来在一定程度上解决这些问题。

协作多代理RL

接下来，我们将介绍协作MAS的理论框架，即Stochastic Games。然后，将介绍几种流行的MARL算法，并与提出的算法进行比较。

Stochastic Games

Stochastic Games 是元组 $<S, p, A_1, A_2, ... ,A_n, r_1, r_2, ..., r_n>$
$S$ ：环境的状态集合
$n$ ：代理的数目
$A_i$ ：代理 i 的动作集合
$p$ ：转移函数
在这里插入图片描述

稀疏Sparse RL

稀疏RL【36】基于以下假设：全局Q值函数可以分解为局部Q值函数，每个函数都依赖于较少代理的动作。
代理之间的依赖关系可以通过 协调图(CG) 来显示。
CG是二分图 G =（V，E），其中每个节点表示代理，并且每个边表示两个代理是邻居。
全局函数可以根据代理或边edge进行分解。

在本小节中，我们仅介绍基于代理的稀疏RL，和基于边的稀疏RL。

1）基于代理的稀疏RL：
全局函数可以根据代理进行分解。每个代理都存储一个本地Q值函数，该函数取决于所有状态和动作的一小部分变量。每个代理 i 更新其Q值函数
在这里插入图片描述

2）基于边缘的稀疏RL：
另一种分解方法是基于边。全局函数被分解为局部函数，每个函数取决于由边连接的两个代理的联合动作。其优点在于全局函数的计算开销随着邻居的数量线性增长。
在边之间分配信用credit的一种方法是边更新规则【36】，即，
在这里插入图片描述

使用因子图的基于团的稀疏RL

稀疏RL仍有两个问题需要充分解决。首先，原始稀疏RL的收敛速度很慢。其次，全局函数只能被分解为包含两个变量的局部函数，这在某些情况下可能是不合理的。
因此，我们将其扩展到局部函数包含两个以上的情况。我们将证明所提出的方法减少了学习时间并提高了学习策略的质量。

A. Sparse RL with a Transition Function

在这里插入图片描述

贪婪联合动作a由一般的max-plus算法获得。

B. Clique-based Decomposition

如何在多个代理之间分配信用credits是MAS中的一个重要问题。
最简单的方法是在代理之间平均分配全局奖励。该方法称为全局奖励，广泛用于合作MAS。它可能会产生懒惰的代理，因为代理收到的奖励不一定取决于它自己的贡献。
另一种极端方式是根据自己的行为为每个代理分配信用，称为本地奖励。但其最终结果可能偏离了设计者的初衷，即合作，因为没有明确的机制来促使代理人互相帮助。

在本文中，我们通过混合上述两种方法提出了一种新方法。

事实上，我们的方法非常类似于混合团队学习【43】，Luke已经在遗传编程 genetic programming 中进行了研究【44】。
在这种学习中，具有相同本地兴趣的代理聚集在一个团中。在每个团中，有一个学习者负责为同一团内的每个代理学习和决定。它根据团的表现获得奖励，存储和更新本地Q值函数，该函数取决于其团感知的局部状态以及团中代理的联合行动。

如图2所示，八个传感器分成三个小组。我们将它们聚集在一起，即每个团负责在单元格中击中和捕获目标。此后拓扑是静止的。
在这里插入图片描述

由于团之间存在重叠，我们制定以下信用分配规则。每个团占据一个单元格，例如，团0占据单元格0。
在每个步骤中，如果传感器不聚焦其团所占据的单元格，则其即刻奖励将不会被添加到其团中。每个团只能感知它占据的单元格中发生的事情。以Clique 1为例，它只能区分四种状态，即Cell 1中是否有目标，剩余多少能量（1,2或3）。

C. Factor Graphs and The General Max-plus Algorithm

使用因子图的建议来自【39】。至于特定状态，Q值函数仅取决于动作变量。因此，全局Q值函数被分解为
在这里插入图片描述

其中，本地Q值函数Q0，Q1和Q2分别由三个团的学习者存储和更新。分解式(12)可以用因子图【45】表示，如图3(a)所示。
在这里插入图片描述
因子图是二分图，它包括变量节点和因子节点。
变量节点可视化为空圆以表示变量，因子节点可视化为实心方块以表示因子。
当且仅当 ai 是 Qj 的参数时，边连接节点(ai)和节点(Qj)。当且仅当它们之间存在边时，两个节点是邻居。

DSN问题中全局Q值函数的分解应遵循以下规则。
一方面，应该连接局部Q值函数之和的因子图，也就是说，因子图中任何两个节点应该至少有一条路径。否则，必须有独立的代理或团。

另一方面，因子图中的循环应该尽可能少，因为它们将在消息传递过程中引起消息爆炸。

用于求解(12)的最大值的算法经常利用分解全局函数。max-plus算法遵循一个简单的规则，即每个节点不断向其所有邻居发送消息，直到满足终止条件。有两种类型的消息。设 N(x) 表示节点x的邻居集。

从 变量节点(ai) 发送到 因子节点(Qj) 的消息是
在这里插入图片描述

从 因子节点(Qj) 发送到 变量节点(ai) 的消息是
在这里插入图片描述

当消息不再改变或达到预定义的迭代次数时，可以通过最大化每个变量节点接收的消息来计算最大解，
在这里插入图片描述

算法2中示出了一般max-plus算法的伪代码。变量节点和因子节点的数量分别由n和m表示。在因子图中，消息发送可以是顺序的或并行的。
在一种方式中，消息从叶节点一步一步地发送到根节点，然后从根节点反向传播到叶节点。
另一种方式中，如算法2所示，一个节点在发送之前不必等待传入消息。如果存在唯一的 ai 以使 b(ai) 最大化，则最大解是唯一的。在此假设下，通过在无环因子图中使用通用max-plus算法可以获得精确解。

在这里插入图片描述

如图3(a)所示，因子图包含循环。在这种情况下，通过直接使用通用max-plus算法，无法确保精确解。这是因为节点接收的消息包含以不确定的方式从其发送的消息，从而导致消息爆炸。通过使用 异步消息传递asynchronous message passing【48】和 消息传递与阻尼 message passing with damping【49】缓解这个问题。消息传递message passing的机制仍然不清楚，然而，像算法这样的置信传播在某些情况下已经取得了巨大的成功，例如，turbo码的解码【50】。

这里，为了得到(12)的精确最大值，我们通过将变量节点node(a5)、node(a6)合并为一个节点，node(a4)和node(a7)合并为另一个节点来打破循环，如图 3(b)。出现的变量的域是 A47 = A4×A7 和 A56 = A5×A6。

在这里插入图片描述

在基于clique的分解中，clique中可能有两个以上的代理，这意味着本地Q值函数可能具有两个以上的动作变量。
在这种情况下，使用Kok等人[37]提出的max-plus算法不能直接解决最大化问题。虽然通过将相关图转换为仅具有成对的代理间依赖性的图，可以将它们的技术推广到具有两个以上变量的局部函数。
但我们认为使用因子图和一般max-plus算法以分布式方式获得贪婪联合行动的方法更自然和方便。

接下来，我们将在传感器网络上测试我们提出的算法以及回顾的MARL算法。

总结

在本文中，我们讨论了如何在DSN问题中实现合作的问题。首先，我们将稀疏RL与转换函数结合起来。其次，我们将基于clique的分解作为在代理之间分配信用的方法。第三，我们在因子图中使用一般max-plus算法来获取贪婪的联合动作。通过这种方式，每个代理只需要感知本地环境并与其邻居通信。此外，局部Q值函数可以包含两个以上的变量，这意味着可以根据问题考虑更灵活的分解。与其他MARL算法相比，所提出的算法获得了最佳的学习性能，并为DSN问题提供了最佳策略。

我们认为分解的最佳方式在很大程度上取决于所涉及的问题。在DSN问题中，通过将传感器分成派系，我们制定了一个因子图，可以很容易地转换为无环路图。在更复杂的MAS中，因子图可能具有许多循环，这使得一般max-plus算法的收敛性和稳定性不再适用。在未来，我们将研究所提出的算法在更多应用中的可行性和有效性，例如交通信号灯的协调，并尝试解决包含环路的因子图的问题。