深度强化学习落地方法论算法选择：DQN、DDPG、A3C、PPO、TD3

企业开发 2023-07-15 15:48:57 阅读次数: 0

虽然每年 RL 方向的 paper 满天飞，但真正具有普遍实用价值的突破性工作实在不多，大多数还是在经典框架基础上的改进和扩展。DRL 常规武器库里的存货主要还是老三样：DQN，DDPG 和 A3C，它们是深度学习时代最成熟、最能体现智慧结晶的三个 DRL 框架，你可以在 GitHub 上找到无数相关代码，有 OpenAI，DeepMind 和 Nvidia 这些大公司的，也有个人爱好者的。对于 DRL 初学者，它们是最佳的敲门砖；对于算法研究者，它们是最厚实的 “巨人肩膀”；对于算法工程师，它们是最顺手的试金石。你完全可以把三个框架都放到项目模拟器上跑一跑，看哪个效果好就用哪个。当然，这三个算法框架都有各自的特点和适用 domain，结合对项目的分析，是可以提前评估最合适的算法的。

1.强化学习——探索和利用的平衡游戏

总体来说，强化学习是一个探索（Exploration）和利用（Exploitation）的平衡游戏，前者使 agent 充分遍历环境中的各种可能性，从而有机会找到最优解；后者利用学到的经验指导 agent 做出更合理的选择。两者之间可以说是相爱相杀的关系：

充分的探索才能带来有效的利用，从而使 RL 走在正确的道路上。对于那些难度特别高的任务，改进探索策略是性价比最高的手段，比如 AlphaGo 使用蒙特卡洛决策树征服了围棋，Go-Explore 利用状态回访打爆了 Montezuma’s Revenge
充分的利用才能探索到更好的状态，agent 往往需要掌握基本技能，才能解锁更高级的技能。就好像小孩先要学会站起来，

猜你喜欢

转载自blog.csdn.net/sinat_39620217/article/details/131730471

深度强化学习落地方法论算法选择：DQN、DDPG、A3C、PPO、TD3

如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法

深度强化学习调参技巧：以DQN、DDPG、TD3、PPO、SAC等算法为例

深度强化学习落地方法论训练篇：PPO、DQN、DDPG、学习率、折扣因子等

在强化学习领域最受欢迎的A3C算法，DDPG算法，PPO算法等都是AC框架

深度强化学习-TD3算法

深度强化学习-TD3算法原理与代码

强化学习算法学习汇总笔记 (二) — Actor Critic、DDPG、A3C、

深度强化学习-A3C算法

深度强化学习（DRL）简介与常见算法（DQN，DDPG，PPO，TRPO，SAC）分类

深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction

强化学习从基础到进阶-常见问题和面试必知必答[7]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

强化学习从基础到进阶--案例与实践[7.1]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解项目实战

强化学习从基础到进阶--案例与实践[7]：深度确定性策略梯度DDPG算法、双延迟深度确定性策略梯度TD3算法详解

TD3与DPG、DDPG、Double DQN解析

强化学习之TD3（pytorch实现）

DDPG ,TD3,SAC

深度强化学习——从DQN到DDPG

【强化学习】常用算法之一 “A3C”

强化学习---A3C

强化学习(十五) A3C

一文读懂深度强化学习算法 A3C （Actor-Critic Algorithm）

深度强化学习系列之（8）----- A3C算法原理及Tensorflow实现

深度强化学习算法 A3C （Actor-Critic Algorithm）

强化学习调参经验大集成：TD3、PPO+GAE、SAC、离散动作噪声探索、以及Off-policy 、On-policy 算法常见超参数

强化学习算法TD3论文的翻译与解读：延迟学习、软更新、策略噪声、梯度截取

深度强化学习之Policy Gradient & Actor-Critic Model & A3C

深度强化学习之A3C网络—理论及代码(小车上山)

深度强化学习中的知识点-DQN、DDPG、AC-贪心算法

[强化学习论文笔记(６)]:A3C

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)