DQN解决cartpole原理 - 代码天地

DQN解决cartpole原理

其他 2018-11-10 10:35:25 阅读次数: 0

版权声明：本文为博主原创文章，转载请附上链接出处。 https://blog.csdn.net/allen_li123/article/details/83621804

标签（）：机器学习

文章目录

@[toc]

为什么需要DQN

DQN与Q学习？

DQN算法更新

附录（莫凡代码）

当学习状态空间很大，例如围棋的学习中，由于状态空间过大导致Q表远远超过内存，所以在复杂学习情况下Q表更新并不适用。

取而代之的是用神经网络当做Q表使用，第一种神经网络是输入状态和动作，输出动作的评价值，第二种神经网络是输入状态输出所有动作和该动作的评价值，再从中选取评价高的动作进行决策。

算法更新：
$Q(S^{'})现实=R+\gamma*maxQ(s^{'})$
$Q(S_2)估计=Q(s_2)$
$新NN=老NN+\alpha(Q_{现实}-Q_{估计}）$

为什么需要DQN

一般的强化学习例如Q学习相当于不断进行仿真获取数据并从表中寻找最优解进行选取，但是现实情况中例如连续控制问题状态空间是无限的，所以一般的Q学习并不能满足问题的求解
在这里插入图片描述
一方面神经网络能拟合参数，能够自主学习数据，但是极其依赖数据集
另一方面，强化学习不能拟合参数，能够自主仿真，数据集由仿真所得
所以在没有数据集的情况又需要数据集进行拟合的问题上应当选用深度强化学习

DQN与Q学习？

在引入DQN之前我们看一个DQN解决的一个连续控制的问题。（后附代码）

在这里插入图片描述

我们通过控制小车向左向右移动，使棒子始终保持竖立状态
通过对gym环境的查询，我们知道该游戏有四个信息，但是我们并不知道信息所代表的含义
我们的输入有两种，向左或者向右
基于以上信息建立一种输入使棍子始终保持平衡

在此，我们使用深度强化学习中的DQN解决此问题

假设我们如果使用Q学习解决此类问题，则结构图如下

在这里插入图片描述

输入为环境反馈的四个信息，输出为向左向右查找得到的数值。但是正如之前说的，连续控制存在无限可能，如果不能拟合数据很难学出效果，所以我们加入了神经网络如下：

在这里插入图片描述

将Q表换为隐藏层，这样就相当于一个输入层为4个节点，输出层为2个节点的神经网络。
将获得的数据放入神经网络进行拟合而不是放入Q表存储就是DQN与Q学习的不同之处

此外为了消除数据集之间的关联性以及提高数据集的利用效率，需要将仿真数据放入Q表中，在每次拟合时随机抽取一个batch进行拟合。
在这里插入图片描述

另外在改进的DQN中，Q表也是用神经网络进行存储，在一定时间后，右侧所训练的神经网络完全赋值给与左侧神经网络实现数据更新

DQN算法更新

在这里插入图片描述

在这里插入图片描述

附录（莫凡代码）

https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/tree/master/contents/6_OpenAI_gym

猜你喜欢

转载自blog.csdn.net/allen_li123/article/details/83621804

DQN解决cartpole原理

基于DQN的CartPole实战

转载：DQN算法玩CartPole

强化学习算法 DQN 解决 CartPole 问题，代码逐条详解

150行代码实现DQN算法玩CartPole

强化学习入门——使用DQN训练CartPole

强化学习（一）Q-Learning/DQN之CartPole

强化学习DQN算法实战之CartPole

【RL】Tensorflow2实现DQN，CartPole环境

深度Q网络：DQN项目实战CartPole-v0

CartPole

DQN 原理（二）：理解 DQN 中的“Q”

强化学习基础第一个程序（建议在DQN跑CartPole之前）

强化学习DQN算法实战之CartPole（百度PARL）

pytorch实现CartPole-v1任务的DQN代码

DQN 处理 CartPole 问题——使用强化学习，本质上是训练MLP，预测每一个动作的得分

强化学习从基础到进阶-案例与实践[4.1]：深度Q网络-DQN项目实战CartPole-v0

DQN

Double DQN——解决DQN中的过估计问题

【深度学习】强化学习之DQN、Double DQN、dueling DQN原理（转）

Deep Q Network(DQN)原理解析

强化学习—DQN算法原理详解

深度强化学习——DQN算法原理

用tensorflow 创建一个基于策略网络的Agent来解决CartPole问题

强化学习算法 DDPG 解决 CartPole 问题，代码逐条详解

强化学习算法 Policy Gradient 解决 CartPole 问题，代码逐条详解

深度学习总结：DQN原理，算法及pytorch方式实现

[强化学习实战]深度Q学习-DQN算法原理

深度强化学习-DQN算法原理与代码

深度强化学习-Dueling DQN算法原理与代码

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)