分布式强化学习的分类

根据智能体工作方式的不同,可以将分布式强化学习分为:集中式强化学习、独立强化学习、群体强化学习和社会强化学习。具体介绍如下:

1、集中式强化学习

集中式强化学习通常把整个多agent 系统的协作机制看成学习的目标, 承担学习任务的是一个全局性的中央学习单元, 这个学习单元以整个多agent 系统的整体状态为输人,以对各个agent 的动作指派为输出, 采用标准的强化学习方法进行学习, 逐渐形成一个最优的协作机制。集中式强化学习系统中的各个agent 都是“傻”agent, 它们不能执行学习任务, 而只能被动地执行学习结果。这类集中式强化学习通常用于调度问题,其体系结构如图所示

2、独立强化学习

独立强化学习中每个agent 都是独立的学习主体,它们分别学习对环境的响应策略和相互之间的协作策略,并对自己所感知到的环境状态选择一个获得回报最大的动作。独立强化学习中的agent 可能只考虑自己的状态而不关心其它agent的状态,选择动作时也只考虑自己的利益,agent从信度分配模块获得的强化信号只与自己的状态和动作相联系,所以进行学习时甚至可能忽视其它agent 的存在,认为只有自己在学习。相对于集中式强化学习,独立强化学习存在结构信度分配问题,其体系结构如图所示:

3、群体强化学习

群体强化学习将所有agent的状态或动作看作组合状态或组合动作,每个agent 维护的Q表都是组合状态和组合动作到Q值的映射。群体强化学习的每个agent都必须考虑其它agent的状态,选择动作时也必须考虑集体的利益,所以具有状态空间和动作空间庞大的特点,学习速度很慢,这种“紧密耦合”的方法一般只适用于agent很少的情况下,而且需要加速算法的支持。其体系结构如下图:

4、社会强化学习

社会强化学习可以看作是独立强化学习的推广,是独立强化学习与社会模型或经济模型的结合。由于采用社会模型或经济模型能明显提高多agent系统的智能水平,所以将这一类分布式强化学习单独分离出来称为社会强化学习。其模拟人类社会中人类个体之间的交互过程,建立社会模型或经济模型,用社会学和管理学的办法来调节agent 之间的关系,形成高效的交流、协作、竞争机制,从而达到整个系统意义上的学习目标。社会强化学习比独立强化学习具有更大的灵活性,可以建立更复杂的结构,采纳社会学或经济学的概念可以更有效地克服独立学习自私的缺陷,可以在agent之间传播优秀的策略,可以消解agent之间可能产生的冲突,可以更有效地解决结构信度分配问题。

猜你喜欢

转载自blog.csdn.net/count_on_me/article/details/82745214