OpenAI Multi-Agent Particle Environments (MPE) 介绍与使用

其他 2018-06-02 12:22:27 阅读次数: 0

OpenAI MPE&MADDPG 配置和运行

一、Multi-Agent Particle Environment（MPE）

1. 介绍

Multi-Agent Particle Environment（MPE）是由OpenAI开源的一款多智能体强化学习实验平台，以OpenAI的gym为基础，使用Python编写而成。它创造了一个简单的多智能体粒子世界，粒子们可以进行连续的观察和离散的动作。

实验效果

2. 安装配置

实验环境

Python 3.6.4
Windows 10
OpenAI gym 0.10.5
Numpy
Pyglet 1.2.0

配置步骤

cd至根目录下，执行pip install -e .安装环境。
执行pip uninstall pyglet卸载pyglet1.3.6
执行pip install pyglet==1.2.0安装pyglet1.2.0
运行程序python bin/interactive.py --scenario simple.py

3. Demo运行

环境说明

二、Multi-Agent Deep Deterministic Policy Gradient (MADDPG)

1. 介绍

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments提出的MADDPG算法（混合合作-竞争环境下的多智能体Actor-Critic）的代码。必须在Multi-Agent Particle Environments （MPE）的环境运行。

2. 安装配置

实验环境

Python 3.6.4
Windows 10
OpenAI gym 0.10.5
Numpy
Tensorflow
Pyglet 1.2.0

配置步骤

cd至根目录下，执行pip install -e .，安装环境。
安装multiagent-particle-envs,并确保将其添加到PYTHONPATH环境变量中。
cd至experiments目录下，运行程序python train.py --scenario simple

3. 命令参数说明

环境选项

--scenario: MPE中的环境 (默认: "simple")
--max-episode-len 环境的每个周期的长度 (默认: 25)
--num-episodes 训练周期总数 (默认: 60000)
--num-adversaries: 环境中的adversary数量 (默认: 0)
--good-policy: 环境中good policy算法(默认: "maddpg"; 选项: {"maddpg", "ddpg"})
--adv-policy: 环境中adversary policy算法(默认: "maddpg"; 选项: {"maddpg", "ddpg"})

核心训练参数

--lr: 学习速率 (默认: 1e-2)
--gamma: 损失因子(discount factor) (默认: 0.95)
--batch-size: Batch大小 (默认: 1024)
--num-units: 多层神经网络层数 (默认: 64)

保存

--exp-name: 实验的名称，用以保存结果。 (默认: None)
--save-dir: 保存训练结果和模型的位置 (默认: "/tmp/policy/")
--save-rate: 模型将会以这个周期频率进行保存 (默认: 1000)
--load-dir: 载入训练结果和模型的位置 (默认: "")

评估

--restore: 恢复在load-dir的训练结果, 并且继续训练 (默认: False)
--display: 展示训练结果, 但不继续训练 (默认: False)
--benchmark: 对训练结果进行基准评估, 保存结果到 benchmark-dir 文件夹 (默认: False)
--benchmark-iters: 执行基准评估的训练周期 (默认: 100000)
--benchmark-dir: 存放基准数据的目录 (默认: "./benchmark_files/")
--plots-dir: 存放训练曲线的目录 (默认: "./learning_curves/")

4. Demo运行

进行训练
python train.py --scenario simple_push --num-episodes 1000000 --exp-name exp1 --save-dir push_dir
训练结果可视化
python train.py --scenario simple_push --load-dir push_dir --display
继续训练
python train.py --scenario simple_push --load-dir push_dir --restore --num-episodes 80000

猜你喜欢

转载自www.cnblogs.com/Sanshibayuan/p/9118440.html

OpenAI Multi-Agent Particle Environments (MPE) 介绍与使用

OpenAI经典案例分享-1多智能体使用特定工具交互Multi-Agent Interaction-2机械手解决魔方Robot Hand

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 读书笔记

《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》论文解读

Particle designer 粒子工具属性介绍及使用

openai 介绍

Project 2: Multi-Agent Search

MyBatis总结(七)--environments属性介绍

particle.js库使用，颗粒效果

关于对vue-particle-effect-button的使用

COMA（二）：Counterfactual Multi-Agent Policy Gradients 论文讲解

openai的的API如何使用

MyBatis environments

openai

OpenAI开发系列（三）：OpenAI的大模型生态介绍

在ParaView中使用particle tracer filter进行粒子追踪

UGUI 上使用 Particle System 支持 Sorting Layer 排序渲染

粒子群优化算法（Particle Swarm Optimization）使用与实现方法

LangChain Agent 执行过程解析 OpenAI

CSE 390A, Spring 2014 Assignment 3: Multi-user Unix Environments

【论文笔记】Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research

【EMSANet2022】Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments

Multi-object navigation in real environments using hybrid policies 论文阅读

使用 .NET 开始 OpenAI Completions

Langchain 使用 OpenAI 聊天模型

读书笔记15：VAIN:Attentional Multi-agent Predictive Modeling

读书笔记 - A Survey on Sensor Networks from a Multi-Agent perspective

An Unified Intelligence-Communication Model for Multi-Agent System——Part III

An Unified Intelligence-Communication Model for Multi-Agent System——Part II

An Unified Intelligence-Communication Model for Multi-Agent System——Part I

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)