强化学习的DDPG

其他 2020-06-19 06:15:36 阅读次数: 0

动机

处理连续动作空间下，参数过多，运算过于复杂的问题。

想象一下，一个机器人每个时间步有7个动作，如腿、胳膊等各个关节。你可以调整的是每个部位对应电机的电压。先简单看作每个动作有3个动作状态，{-k,0,k}，那么每个时间步就对应有 $3^7=2187$ 个动作空间。如果将k这个数字更细粒度划分的话，动作空间将会非常庞大。

因此，面对这样的情况，DDPG提出了新的方法。其关键在于改变策略函数。

实现

论文引入了一个新的策略函数 $\mu_\theta(a|s)$ 来代替原本的 $\pi_\theta(a|s)$

$\pi_\theta(a|s)$ 将给定的状态，映射到所有动作的动作分布

$\mu_\theta(a|s)$ 将给定的状态，直接映射为一个动作

显而易见提高了效率

猜你喜欢

转载自blog.csdn.net/Xurui_Luo/article/details/106638457

强化学习的DDPG

强化学习笔记：DDPG

强化学习--DDPG算法

深度强化学习——从DQN到DDPG

DDPG强化学习pytorch代码

深度强化学习实战-Tensorflow实现DDPG

【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解

深度强化学习——连续动作控制DDPG、NAF

Keras深度强化学习--DPG与DDPG实现

深度强化学习-DDPG算法原理和实现

DDPG强化学习的PyTorch代码实现和逐步讲解

深度强化学习-DDPG算法原理与代码

强化学习DDPG：Deep Deterministic Policy Gradient解读

【强化学习】Deep Deterministic Policy Gradient(DDPG)算法详解

【强化学习】17 ——DDPG（Deep Deterministic Policy Gradient）

强化学习：Actor-Critic、SPG、DDPG、MADDPG

强化学习入门（五）连续动作空间内，使用DDPG求解强化学习问题

深度强化学习-DDPG代码阅读-ddpg.py(1)

强化学习算法学习汇总笔记 (二) — Actor Critic、DDPG、A3C、

深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction

Continuous control with deep reinforcement learning (DDPG强化学习) 论文翻译

深度强化学习之策略梯度和优化(二) — DDPG

强化学习算法 DDPG 解决 CartPole 问题，代码逐条详解

【深度强化学习】8. DDPG算法及部分代码解析

MATLAB强化学习实战(五) 通过图像观测训练DDPG智能体控制平衡摆

MATLAB强化学习实战(四) 训练DDPG智能体控制双积分器系统

MATLAB强化学习实战(七) 在Simulink中训练DDPG控制倒立摆系统

MATLAB强化学习工具箱（八）钟摆模型建模并使用DDPG训练

DDPG神经网络实战（基于强化学习优化粒子群算法）

【深度强化学习】(5) DDPG 模型解析，附Pytorch完整代码

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)