分布式强化学习之D4PG - 代码天地

分布式强化学习之D4PG

其他 2021-11-30 04:04:12 阅读次数: 0

D4PG全称Distributed Distributional Deterministic Policy Gradient，是总所周知的DDPG的分布式版本。因此学习D4PG之前，需要了解DDPG。

首先DDPG是DQN在连续空间的版本，DQN只能处理离散动作空间的问题，对于连续动作空间是无法处理的，因此我们引入了DDPG。DDPG是actor-critic的结构，并且借鉴了DQN的技巧，也就是目标网络和经验回放。因此DDPG有四个网络，一个actor，一个Target-actor，一个critic，一个Target-critic。对于Critic的更新方法和DQN一样，而Actor的更新就是最大化Critic的输出，也就是得到最高的评价。DDPG和DQN具体细节可以参考我以前的文章：强化学习实践教学

D4PG将经验收集的Actor和策略学习的Learner分开，使用多个并行的Actor收集数据，并分享一个大的经验数据缓存区，发送给learner进行学习，经验使用N步奖励的方法进行处理，也可以使用优先级经验复用，给每个经验加上一个初始优先级。

critic的输出是一个分布，这也就是distributional的概念。

在这里插入图片描述

在这里插入图片描述

D4PG的改进使得我们可以运用上百台甚至更多的机器资源，这样就能够采样更多用于训练的数据，比DPPO更好的地方在于Learner不需要等待Actor计算梯度，真正实现了样本采集和训练过程的分离，所以，D4PG可以用于更复杂的连续动作控制领域。缺点在于Actor和Learner的分离可能导致学习到的策略和正在执行的策略产生差距，因此在一个不是很好的策略下采集到的样本也不好，D4PG没有解决两者的平衡问题。

猜你喜欢

转载自blog.csdn.net/tianjuewudi/article/details/120768767

分布式强化学习之D4PG

分布式强化学习之IMPALA

分布式强化学习的分类

分布式强化学习（Distributed RL）入门

强化学习研究 PG

多智能体强化学习入门（三）——矩阵博弈中的分布式学习算法

使用 Menger 进行大规模分布式强化学习

强化学习从基础到进阶-案例与实践[4]：深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN

分布式存储Ceph之PG状态详解

强化学习从基础到进阶-常见问题和面试必知必答[4]：：深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN

强化学习（4）----简介

Paddle强化学习从入门到实践（Day4）基于策略梯度求解RL：PG算法

强化学习--概念之

强化学习之MDP

强化学习之Sarsa

强化学习之DQN

强化学习之PPO

强化学习之TRPO

强化学习之DDQN

强化学习之SAC

强化学习--综述3之强化学习的分类

重温强化学习之强化学习简介

重温强化学习之强化学习模拟平台

强化学习 4. 动态规划

4、强化学习--model free 控制

分布式学习之缓存Memcached

机器学习之强化学习

最值得学习和最具潜力的 44 个顶级开源项目，包括关于机器学习、深度学习、强化学习、语音识别、自然语言处理、计算机视觉、自动建模和分布式平台等等

监督式学习、非监督式学习、强化学习

强化学习之Q-learning

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)