基于多智能体深度强化学习的体系任务分配方法

业界资讯 2023-06-19 00:27:54 阅读次数: 0

源自：指挥与控制学报

作者：林萌龙, 陈涛, 任棒棒, 张萌萌, 陈洪辉

摘要

1 背景

1.1 集中式决策VS分布式决策

图1集中式决策示意图

1.2 多智能体强化学习

2 问题描述

2.1 场景描述

图2分布式决策场景下的体系任务分配

2.2 状态空间、动作空间与奖励函数设计

3 基于MADDPG算法的作战体系任务分配模型

3.1 基于MADDPG任务分配算法框架

3.2 Actor网络结构

标题图6 Actor网络结构

3.3 Critic网络结构

图7 Critic网络结构

4 实验

4.1 对比算法设置

4.2 实验环境

4.3 实验结果分析

图8集中式训练的多智能体强化学习算法训练的智能体平均奖励曲线

图9分布式训练的多智能体强化学习算法训练的智能体平均奖励曲线

5 结论

声明:公众号转载的文章及图片出于非商业性的教育和科研目的供大家参考和探讨，并不意味着支持其观点或证实其内容的真实性。版权归原作者所有，如转载稿涉及版权等问题，请立即联系我们删除。

猜你喜欢

转载自blog.csdn.net/renhongxia1/article/details/130879279

基于多智能体深度强化学习的体系任务分配方法

论文阅读-基于深度强化学习的方法解决多智能体防御和攻击问题

综述 | 多智能体深度强化学习

多智能体强化学习

多智能体强化学习入门

用于衍生品定价和动态对冲的多智能体深度强化学习和基于 GAN 的市场模拟

【NIPS 2017】基于深度强化学习的想象力增强智能体

多智能体强化学习笔记 02

多智能体强化学习笔记 01

多智能体强化学习之QMIX

多智能体强化学习之MADDPG

多智能体强化学习MAPPO源代码解读

多智能体强化学习之MAPPO理论解读

多智能体强化学习(MARL)训练环境总结

多智能体强化学习MARL的概念和框架

博弈论-多智能体强化学习基础

MABIM：多智能体强化学习算法的“炼丹炉”

多智能体强化学习理论与算法总结

多智能体强化学习思路整理

【强化学习论文】多智能体强化学习是一个序列建模问题

Multiple Landmark Detection using Multi-AgentReinforcement Learning基于多智能体强化学习的多重地标检测

读书笔记 - 多智能体强化学习在城市交通网络信号控制方法中的应用综述

Activiti 学习（任务分配）

基于Stochastic Policy的深度强化学习方法

多任务深度强化学习入门

多智能体强化学习（MARL）研究汇总：行为分析、通信学习、协作学习、智能体建模

多智能体强化学习入门（三）——矩阵博弈中的分布式学习算法

MATLAB强化学习实战(八) 训练多个智能体执行协作任务

多机任务分配机制

多智能体强化学习入门（五）——QMIX算法分析

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)