多智能体强化学习MARL的概念和框架

1.多智能体强化学习

系统里的agents数量大于1,agents彼此之间不是独立的

  • 每个agent的动作都能影响到下一个状态
  • 每个agent都能影响到其他agent

除非agent之间是独立的,否则单一agent的RL方法不适合MARL

2.MARL的类型

  • Fully cooperative(完全合作):agents合作优化同一个回报,如工业机器人
  • Fully competitive(完全竞争):一个agent的利益和另一个agent的损失,如捕猎者和猎物
  • Mixed cooperative & competitive(合作和竞争):如机器人足球,同一队合作关系,两队竞争关系
  • Self-interested(利己主义):不关心其他agent的奖励,如自动交易系统,无人驾驶。

3.MARL概念

3.1 State, Action, State Transition

每个agent都有一个action,转移到下一个状态取决于所有智能体的动作
在这里插入图片描述

3.2 Rewards

每个agent都有一个reward,reward不仅取决于这个agent的动作,也取决于所有其他agent的动作。在完全合作中,每个agent的奖励都是一样的,在完全竞争中,奖励是相反的。
在这里插入图片描述

3.3 Returns

时刻t,每个agent都有一个reward,因此也有对应的return
在这里插入图片描述

3.4 Policy Network

每个agent都有自己的策略网络,有些场景下策略是可交换的,即共享一个策略,比如自动驾驶策略相同,有些场景下策略不可交换,比如足球中前锋和门将代表不同的角色,策略也不同。
在这里插入图片描述

3.5 Uncertainty in the Return

某时刻某个agent的奖励取决于当前状态和所有其他agents的动作。状态的转移本身就存在不确定性,动作是根据策略随机选择的,回报取决于所有未来的状态和未来的动作,因此回报也存在不确定性。
在这里插入图片描述

3.5 State-Value Function

状态值函数是回报的期望,回报是奖励的期望,而奖励取决于所有agents的动作,动作是基于策略随机选择。因此某时刻某个agent的状态值函数取决于所有agents的策略参数。如果一个agent改变了它的策略,所有其它agents的状态值函数都会改变。
比如在足球比赛中,前锋改进了策略,其他人的策略不变,他的团队的状态值函数也会增加,对面的球员状态值函数会减少。
在这里插入图片描述

4.学习收敛性

对于单智能体策略的学习,当目标函数停止增加时则收敛。对于多个智能体的学习则使用纳什均衡(Nash Equilibrium),对于每个agent,当其它agent的策略不变时,它改变策略不会获得更高的回报。纳什均衡下能实现收敛,因为每个agent都没有改变的动力。
在这里插入图片描述

5.MARL的难点

之前的单一智能体梯度策略更新的方法不再适用于MARL。如果在MARL,每个agent都只更新自己的策略网络,而策略更新的目标函数取决于所有agent的参数,因此会出现以下情况:对于agent1,已经找到了最优参数,然后agent2改变了它的策略,agent1的目标函数也会改变,找到的最优策略就不在是最优的,又需要重新学习更新,如此往复难以实现收敛,因此需要设计针对多智能体的RL方法。
在这里插入图片描述

6.MARL的三种架构

MARL有三种结构:

  • Fully Decentralized:完全去中心化
  • Fully centralized:完全中心化
  • Centralized training with decentralized execution:中心化学习,去中心化执行

在智能体系统中,一个智能体可能会或者不会观测到完整的状态,如果是完全可观察(Full observation),各智能体的观察值等同于状态,如果是部分可观察(Partial observation),每个智能体的观察值不等同于状态。

6.1 完全去中心化

Fully Decentralized是去中心化训练和执行,每个智能体都有自己的观察值和奖励用来学习自己的策略,智能体之间没有交流。以actor critic方法为例,每个智能体都有独立的策略网络和值网络,两个网络的输入输出都是基于自己观察的局部状态信息,智能体之间不会共享观察值和动作,和单一智能体学习方式是一样的,前文已经阐述过这种方式不可行。
在这里插入图片描述

6.2 完全中心化

Fully centralized是中心化训练和中心化执行,智能体将所有信息都发送给中央控制器,控制器会为所有智能体做决策。
在这里插入图片描述
用Centralized Actor-Critic方法说明上述过程:在某时刻t,定义a为n个智能体的动作集合,o为n个智能体的观测集合,中央控制器(central controller)会获取到a,o和所有的奖励,控制器有n个策略网络和n个值网络,分别对应到每个智能体。每个策略网络输入是整体观测集合,输出对应智能体的动作。每个值网络输入是整体观测集合和整体动作集合,输出对应智能体策略值函数。中央控制器分别使用PG和TD更新所有的AC网络。在执行时,控制器会给予观测集合和n个策略网络随机采样n个动作给n个智能体。
这种方式缺点在于:所有智能体都要同时将观测值传给中央控制器,控制器再统一返回给每个智能体一个动作,智能体和控制器之间的通信和同步比较耗时,难以实现实时决策。
在这里插入图片描述

6.3 中心化学习+去中心化执行

Centralized Training with Decentralized Execution在训练时使用中央控制器,在执行时弃用控制器。每个智能体有自己的策略网络,中央控制器有n个价值网络。也就是critic的更新是中央控制器负责,而actor的更新是各个智能体负责。

  • Centralized Training:中央控制器会接受所有智能体的观测,动作和奖励,使用这些信息来更新n个价值网络,例如对于actor1的价值网络critic1,输入是观测集合,动作集合以及reward1,输actor1的值函数。actor1的策略网络以它自己的观测值,动作和控制器返回的值函数为输入更新策略。

在这里插入图片描述

  • Decentralized Execution:actor与环境交互时只需输入它自己的观测值,基于自己的策略网络输入动作

在这里插入图片描述
从上面描述可知,Centralized Training with Decentralized Execution即能保证训练的稳定性,也能保证执行的快速。

6.4 三种架构的对比总结

共同点:n个智能体,n个actor,n个critic
不同点:actor和critic的网络输入不同,训练方式不同
在这里插入图片描述

6.5 参数共享(Parameter Sharing)

所有actor和critic网络参数是否共享要考虑智能体是否可交换,比如在无人驾驶中每台车都可以是一样的策略,在机器人足球赛中,各个角色的策略都不同,是不能实现参数共享的。
在这里插入图片描述
相关论文:
Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games

猜你喜欢

转载自blog.csdn.net/weixin_45526117/article/details/128002591