强化学习之DDQN - 代码天地

强化学习之DDQN

其他 2021-11-30 04:07:28 阅读次数: 0

知识基础DQN参考我的博文：https://tianjuewudi.gitee.io/2021/07/16/qiang-hua-xue-xi-shi-jian-jiao-xue/#toc-heading-19

DQN复习

我们利用神经网络来代替表格法，我们可以输入S并输出多个Q，每个Q对应一个A。神经网络只需要储存有限的网络参数，我们的任务就是不断调整这些参数，使得输入输出符合我们的预期，而且状态可以泛化，相似的状态输出也差不多。
DQN有两大创新点，一个是经验回放，一个是固定Q目标。经验回放是指探索的数据特征形成一组组数据，并且可以随机打乱，使得神经网络可以重复多次地进行学习。这样可以打乱样本的关联性，而且能提高样本利用率。固定Q目标是指我们把Q值固定一段时间来训练参数，我们需要另外一个一样的网络（target Q网络），Q网络的作用是产生一个Q预测值，直接用来决策。而target Q是产生一个Q目标值，我们通过这个目标值的 $Q_{t+1}$ 计算Q网络 $Q_{t}$ ，target Q往往固定一段时间来使Q网络得到充分训练。

DQN的缺陷

使用了 max 操作，Q-learning、DQN算法都会过高估计(overestimate)Q值。

DDQN与DQN的异同

DDQN和DQN一样，也有一样的两个Q网络结构。下面是DQN的更新公式
$Q_m(S_{t},a_t) = Q_m(S_{t},a_t)+ \eta * (R_{t+1} + γ \max_a Q_t(S_ {t+1} ,a) - Q_m(s_t,a_t))$
DDQN采用的是一种使更新公式更稳定的方法：
$a_m = arg \max_a Q_m(s_{t+1},a)$

$Q_m(S_{t},a_t) = Q_m(S_{t},a_t)+ \eta * (R_{t+1} + γ Q_t(S_ {t+1} ,a_m) - Q_m(s_t,a_t))$

也就是说DDQN与DQN的不同之处在于用来更新Q网络的Target Q中 $Q(S_{t+1},a)$ 的选择方式，DQN直接用Target Q网络中t+1时刻可选Q的最大值用来更新，而DDQN用的是根据Q网络t+1时刻的最大Q来选择对应的action，然后用这个action来对应决定Target Q网络中的Q值，这样更新的Q值就会小于等于DQN更新的Q值，改善overestimate的问题。

猜你喜欢

转载自blog.csdn.net/tianjuewudi/article/details/119985803

强化学习之DDQN

强化学习（十）Double DQN (DDQN)

深度强化学习——Dueling-DDQN

强化学习笔记：DQN和DDQN

【转载】强化学习（十）Double DQN (DDQN)

深度强化学习——Dueling-DDQN（转）

【转载】强化学习(十一) Prioritized Replay DQN 强化学习（十）Double DQN (DDQN)

强化学习——DQN系列（DQN, Nature DQN, DDQN, Dueling DQN等）

强化学习--概念之

强化学习之MDP

强化学习之Sarsa

强化学习之DQN

强化学习之PPO

强化学习之TRPO

强化学习之SAC

强化学习--综述3之强化学习的分类

重温强化学习之强化学习简介

重温强化学习之强化学习模拟平台

机器学习之强化学习

强化学习之Q-learning

强化学习之决策论——笔记

深度强化学习之简介

强化学习之策略迭代

强化学习之动态规划

强化学习之策略policy 6

强化学习之奖励reward

PyTorch一之强化学习

深度强化学习之DQN实战

强化学习之Q——learning

python之强化学习入门

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)