Dueling Network Architectures for Deep Reinforcement Learning: DuelingDQN - 代码天地

Dueling Network Architectures for Deep Reinforcement Learning: DuelingDQN

其他 2019-12-31 19:50:53 阅读次数: 0

论文地址

基本思路就是
\(Q(s,a)\)的值既和state有关，又和action有关。但是两种"有关"的程度不一样，或者说影响力不一样。
对于\(Q(s,a)\)　我们希望它能反应出两个方面的差异。

对于当前状态s,能够很好的区分不同action的影响
对于不同状态s,能够很好的区分不同state的影响

\(Q(s,a;\theta,\alpha, \beta) = V(s;\theta,\beta) + A(s,a;\theta,\alpha)\)

但是只使用上面的公式，神经网络可能会达不到我们想要的结果，我们不能直接接触到\(V,A\)，只是得到的他们的和（结果很可能就跟DQN是一样的）。但是我们希望A能够体现动作对value 的影响 ,V 能够体现状态对value的影响。
所以将公式改为下面这样。这样\(Q(s,a_*)=V(s)\),这样V就真的反应了状态值，A就是体现不同action 的advantage
\(Q(s,a;\theta,\alpha, \beta) = V(s;\theta,\beta) + （A(s,a;\theta,\alpha)－\underset{a'\in |A|}{max}A(s,a';\theta,\alpha)）\)

另一种方式如下，这种方式，V不能体现state value 但是只是一个小小的偏移，论文中说这样的实现更加稳定，效果基本相同。

\(Q(s,a;\theta,\alpha, \beta) = V(s;\theta,\beta) + （A(s,a;\theta,\alpha)－\frac{1}{|A|}\sum_{a'\in |A|}A(s,a';\theta,\alpha)）\)

猜你喜欢

转载自www.cnblogs.com/Lzqayx/p/12127043.html

Dueling Network Architectures for Deep Reinforcement Learning: DuelingDQN

论文笔记：Dueling Network Architectures for Deep Reinforcement Learning

【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning

（论文阅读笔记）Network planning with deep reinforcement learning

Relational Deep Reinforcement Learning

022 Deep Reinforcement Learning

Swapout: Learning an ensemble of deep architectures

Deep Reinforcement Learning is a waste of time

Random Thoughts on Deep Reinforcement Learning

# Asynchronous Methods for Deep Reinforcement Learning

Asynchronous Methods for Deep Reinforcement Learning

CAPES:Unsupervised Storage Performance Tuning Using Neural Network-Based Deep Reinforcement Learning

Deep Reinforcement Learning with Double Q-learning

Neural Network and Deep Learning

Deep Reinforcement Learning: Pong from Pixels

Deep Reinforcement Learning 深度增强学习资源

Deep Reinforcement Learning 基础知识

Deep Reinforcement Learning （paper reading notes）

解读continuous control with deep reinforcement learning（DDPG）

Playing Atari with Deep Reinforcement Learning论文解读

Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning

Deep Reinforcement Learning with Iterative Shift for Visual Tracking

李宏毅Deep Reinforcement Learning笔记

算法笔记：Playing Atari with Deep Reinforcement Learning

Exploration Strategies in Deep Reinforcement Learning (2)

Exploration Strategies in Deep Reinforcement Learning (1)

Deep Reinforcement Learning for AutomatedStock Trading: An Ensemble Strategy

DQN Tutorial – Deep Reinforcement Learning with PyTorch

Deep Learning-Deep feedforward network

强化学习资源——Hands-On Reinforcement Learning、Deep Reinforcement Learning Hands-On等

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)