强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业 - 代码天地

强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业

其他 2021-03-24 10:52:15 阅读次数: 0

1. 离散动作 vs 连续动作

在这里插入图片描述
个人理解：

离散：可数（整数表示的）
连续：不可数（小数/浮点数表示的）

在这里插入图片描述

2. DDPG

在这里插入图片描述

在这里插入图片描述

这里一共有四个网络，Q网络以及它的target_Q网络，策略网络以及它的target_P网络，两个target是为了稳定计算，每隔一段时间复制一下参数，投入到评估网络使用。

target_Q是为了稳定计算Q_target中的 $Q_{\bar{w}}(s^{'},a^{'})$ ，而其中的 $a^{'}=\mu_{\theta}(s^{'})$ 则是由策略网络里的那个target_P网络来稳定计算的。
$Q_{\bar{w}}(s^{'},a^{'})$ 这里的w加了一个横线就是为了和前面的那个区分开。

在这里插入图片描述

在这里插入图片描述

策略网络对应的是model.py中的演员Actor类（ActorModel），有一个policy函数，
Q网络对应的是评论家类（CriticModel类），有一个value函数

在这里插入图片描述

DQN里是硬更新，每次直接把 $Q_w$ 网络的所有参数全部给 $Q_{\bar{w}}$ ， $\mu_{\theta}$ 同理。
而DDPG采取的是一种更为平滑的方式，软更新，每次只更新一点点。如公式所示，用了一个 $\tau$ ，来控制每次 $w$ 或者 $\theta$ 更新的幅度。

也是为了让Q网络这个参数的更新更加稳定（属于工程/代码上的一种小trick吧）

在这里插入图片描述

3. 大作业

在这里插入图片描述

https://github.com/PaddlePaddle/RLSchool也是百度做的一个环境，目前暂时只有电梯环境和四轴飞行器这两个环境。

在这里插入图片描述

4. 创意赛

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

相关的代码实现：
在PaddleRL课程页面的讨论区：终极复现项目提交区（讨论请移步灌水区~）
【参考环境】

1星环境：简单的弹跳和接球游戏：
https://github.com/shivaverma/Orbit
2星环境：GYM环境 Box2D (需要安装 box2d-py)：
https://gym.openai.com/envs/#box2d
PyGame游戏环境（含Flappy Bird）：
https://github.com/ntasfi/PyGame-Learning-Environment
3星环境：GYM环境 Robotics (需要安装 mujoco_py和试用许可证书)：https://gym.openai.com/envs/#robotics
股票预测环境：
https://github.com/kh-kim/stock_market_reinforcement_learning
RLSchool四轴飞行器的速度控制任务 “velocity_control”：https://github.com/PaddlePaddle/RLSchool/tree/master/rlschool/quadrotor
4星环境：RLBench任务环境（使用机械臂完成某一项任务）：https://github.com/stepjam/RLBench
5星环境：交通信号灯控制：
https://github.com/Ujwal2910/Smart-Traffic-Signals-in-India-using-Deep-Reinforcement-Learning-and-Advanced-Computer-Vision

猜你喜欢

转载自blog.csdn.net/Castlehe/article/details/112859307

强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业

从零实践强化学习之连续动作空间上求解RL(PARL)

从零实践强化学习之基于神经网络方法求解RL(PARL)

从零实践强化学习之基于表格型方法求解RL(PARL)

强化学习PARL——4. 基于策略梯度方法求解RL

强化学习PARL——3. 基于神经网络方法求解RL

强化学习PARL——2. 基于表格型方法求解RL

从零实践强化学习之基于策略梯度求解RL(PARL)

【强化学习笔记】5.无模型的强化学习方法-时间差分算法

从零实践强化学习之RL初印象(GYM+PARL)

从代码到论文理解并复现MADDPG算法(基于飞桨的强化学习套件PARL)

Paddle强化学习从入门到实践（Day5）：连续动作空间的求解

强化学习入门（五）连续动作空间内，使用DDPG求解强化学习问题

【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)

RL强化学习入门

强化学习【RL】推荐

强化学习系列5：有模型的策略迭代方法

强化学习--基于值函数的强化学习算法

强化学习——基于策略梯度的强化学习算法

《强化学习》探索方法

【深度强化学习】5. Proximal Policy Optimization

强化学习PARL——1. 简单认识

强化学习之五：基于模型的强化学习（Model-based RL）

强化学习（RL）基本概念

强化学习介绍（Introduction to RL）

对RL（reinforcement learning）--强化学习的认识

RL— 深度强化学习简介

通用场和强化学习RL

【RL】我的强化学习代理

强化学习入门（一）强化学习的基础概念及Gym库，Parl库介绍

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)