DQN的多种改进（1）

编程语言 2019-03-08 21:30:53 阅读次数: 0

1.N-step DQN

N-step DQN的核心是将bellman方程展开，即 $Q(s_t,a_t) = r_t + \gamma r_{t+1} + \gamma^2 max_{a'}Q(s_{t+2},a')$
显然，这个式子可以进一步的拓展。但要注意的是，这里假设了 $a_t$ 是趋近于最优动作，因此才能省略max

书中提到，该方法的优点在于可以加速Q网络的收敛。原因在于，由于一开始的随机数据，使得真正准确的Q值其实只存在于最后一个状态。因为只有最后一个状态的Q值等于reward是准确的，其余的都掺杂有不准确的target_Q网络的预测值。而准确的Q值会在第一次迭代后影响到倒数第二层，继而在下一次迭代后影响到倒数第三层。。而如果使用N-step DQN，可以使得准确的Q值在第一次迭代时就影响到倒数前N层，因此起到了加速收敛的作用。但是N值不能取得太大，因为每一步的a并不是最优动作，N值太大时会使得Q的计算严重出错，因为省略了max。且由于DQN off-policy的性质，a的值很可能来源于old policy，从而影响性能。

2.Double DQN (DDQN)

一句话概括DDQN的改变就是下面这个式子：

$Q(s_t,a_t) = r_t + \gamma max_{a'}target\_Q(s', argmax_{a'}Q(s',a'))$

比较一下DQN的式子：
$Q(s_t,a_t) = r_t + \gamma max_{a'\in A}target\_Q(s', a')$
可以发现，区别在于 DDQN通过Q网络来选取a’，而不是完全使用target_Q。结果显示，这样可以防止Q网络的对value的过度预测，加快收敛。

3. Noise Network

之前的 $\epsilon$ -greedy 的探索方式其实并不好，而一种改进的策略就是在Network中加入noise。（可以认为该noise强迫网络进行探索，而由于noise也会加入后向传播的优化，所以也会逐渐收敛）。

第一种方式：对所有全连接层的每个权重，都加上一个高斯分布的噪声项进行干扰
限制高斯变量只在一个有限的随机矩阵中取。

结论：大大加速了收敛。

猜你喜欢

转载自blog.csdn.net/weixin_39274659/article/details/88358966

DQN的多种改进（1）

DQN(1)

DQN的三大改进：

DQN 从入门到放弃1 DQN与增强学习

DQN

Rainbow:整合DQN六种改进的深度强化学习方法！（转）

改进点1

LL(1)改进

YoloV8改进策略：Neck改进：HAM混合注意力机制改进YoloV8|多种改进，多种姿势涨点|代码注释详解

YoloV8改进策略：HAM混合注意力机制改进YoloV8|多种改进，多种姿势涨点|代码注释详解

图像去雾改进1

Bert改进模型汇总（1）

改进版GM(1,1)

DQN笔记

YoloV8改进策略：Conv改进|DCNv4最新实践|高效涨点|多种改进教程|完整论文翻译

YoloV8改进策略：BackBone改进|DCNv4最新实践|高效涨点|多种改进教程|完整论文翻译

Airtest Project(1) -- 多种连接设备的方式

.NET获取枚举DescriptionAttribute描述信息性能改进的多种方法

基于多种小波变换阈值+改进的阈值数字实现信号去噪附Matlab代码

【深度强化学习】(1) DQN 模型解析，附Pytorch完整代码

pytorch实现CartPole-v1任务的DQN代码

改进

1%的灵感最重要 & 改进沟通

水下图像增强改进1

DQN及其变种（Double DQN，优先回放，Dueling DQN)

强化学习 - DQN及进化过程（Double DQN,Dueling DQN）

DQN 原理（二）：理解 DQN 中的“Q”

第七章深度强化学习-深度Q网络系列1（Deep Q-Networks，DQN）

YOLO算法改进指南【初阶改进篇】：1.修改Soft-NMS

lua的多种实现方式(1-100的和)

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)