如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法 - 代码天地

如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法

企业开发 2023-07-15 15:49:13 阅读次数: 0

赶时间请直接看加粗的四种算法，它们占据不同的生态位，请根据实际任务需要去选择他们，在强化学习的子领域（多智能体、分层强化学习、逆向强化学习也会以它们为基础开发新的算法）：

离散动作空间推荐：Dueling DoubleDQN（D3QN）
连续动作空间推荐：擅长调参就用 TD3，不擅长调参就用 PPO 或 SAC，如果训练环境 Reward function 都是初学者写的，那就用 PPO

没入门深度强化学习的人请按顺序学习以下算法：

入门深度学习 / 机器学习，用多层全连接层跑一下 MNIST 数据集
入门深度学习 / 深度学习框架，用卷积网络跑一下 MNIST-fashion 数据集
入门经典强化学习 Q-learning，离散状态、离散动作
入门深度强化学习 DQN（Deep Q-learning），连续状态、离散动作
入门深度强化学习 DDPG（Deep DPG），连续状态，连续动作
入门后，可以先从 TD3、SAC 和 PPO 三种算法开始用起

用于入门的算法只能用来入门，实际做项目不要使用，至少也要用加粗的算法，尽管它们不是 2021 的 SotA（State of the Art 最高水准的算法），但已经足够好用且不至于太复杂**。**一些性能卓越但是复杂的算法，我会写在下面。为了方便你们了解强化学习的子领域，我会列举突出研究成果，并写上短介绍。若

猜你喜欢

转载自blog.csdn.net/sinat_39620217/article/details/131724189

如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法

深度强化学习调参技巧：以DQN、DDPG、TD3、PPO、SAC等算法为例

深度强化学习落地方法论算法选择：DQN、DDPG、A3C、PPO、TD3

深度强化学习（DRL）简介与常见算法（DQN，DDPG，PPO，TRPO，SAC）分类

深度强化学习-TD3算法

深度强化学习-TD3算法原理与代码

DDPG ,TD3,SAC

强化学习调参经验大集成：TD3、PPO+GAE、SAC、离散动作噪声探索、以及Off-policy 、On-policy 算法常见超参数

强化学习从基础到进阶-常见问题和面试必知必答[7]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

强化学习从基础到进阶--案例与实践[7.1]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解项目实战

强化学习从基础到进阶--案例与实践[7]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

深度强化学习——从DQN到DDPG

深度强化学习中的知识点-DQN、DDPG、AC-贪心算法

在强化学习领域最受欢迎的A3C算法，DDPG算法，PPO算法等都是AC框架

深度强化学习-DQN算法

深度强化学习——DQN算法原理

深度强化学习落地方法论训练篇：PPO、DQN、DDPG、学习率、折扣因子等

强化学习--DDPG算法

DQN,DDPG,PPO 等强化学习算法在人工智能中的未来发展方向：从大规模到小规模部署

强化学习算法TD3论文的翻译与解读：延迟学习、软更新、策略噪声、梯度截取

TD3与DPG、DDPG、Double DQN解析

强化学习之TD3（pytorch实现）

强化学习 DQN算法

强化学习算法—DQN

强化学习算法DQN

深度强化学习-DDPG算法原理和实现

深度强化学习-DDPG算法原理与代码

深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction

[强化学习实战]深度Q学习-DQN算法原理

深度强化学习-DQN算法原理与代码

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)