论文笔记：Dueling Network Architectures for Deep Reinforcement Learning - 代码天地

论文笔记：Dueling Network Architectures for Deep Reinforcement Learning

其他 2020-01-27 10:47:32 阅读次数: 0

题目：Dueling Network Architectures for Deep Reinforcement Learning

来源：ICML 2016 Best Paper

摘要

在最近几年中，在强化学习中使用深度学习的表示取得了很大的成功。这些应用依然使用了比较传统的架构。比如卷积网络，LSTM或者自动编码器。在本文中，作者提出了一个新的用于model free强化学习的神经网络结构，在dueling network中，作者设计了两个独立的estimator，一个是状态价值函数（state value function），一个是状态依存动作优势函数（state-dependent action adantage function）。这样做的好处是可以在不改变底层强化学习算法的条件下在动作间归纳学习。实验结果显示，这种构架在多种价值相似的动作面前能带来更好的评估策略。这一构架使得我们的强化学习智能体达到了在Atari 2600最先进的结果。

基本思想

文中提到，伴随着强化学习和深度学习的结合，我们在相关领域取得了很多进步，比如DQN等等。但是，最近的研究专注于设计和改善像化学系算法，并没有想到创新一种适合于model free的神经网络架构。这样做可以在不改变强化学习算法的基础上提升其表现。

下面讲state-dependent action adantage function是个什么东西。我们看下图，也是论文中给出的例子：

通过这个例子，我们可以看到value function和state-dependent action adantage function关注点是不一样的。value function无论周围车况，其始终关注的是路，而state-dependent action adantage function则有所区别，周围没有车的时候其什么都不关注，有车的时候开始关注周围的车。

从直觉上讲，state-dependent action adantage function关注的是一个动作有没有价值，且不需要学习每个动作对每个状态的影响。在那些动作不会以任何相关方式影响到环境的状态中，这就特别有用。

。。。看不懂了，等看懂了接着写。

发布了85 篇原创文章 · 获赞 100 · 访问量 13万+

私信关注

猜你喜欢

转载自blog.csdn.net/caozixuan98724/article/details/100899184

论文笔记：Dueling Network Architectures for Deep Reinforcement Learning

Dueling Network Architectures for Deep Reinforcement Learning: DuelingDQN

【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning

（论文阅读笔记）Network planning with deep reinforcement learning

论文笔记：Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning

Playing Atari with Deep Reinforcement Learning论文解读

李宏毅Deep Reinforcement Learning笔记

算法笔记：Playing Atari with Deep Reinforcement Learning

Relational Deep Reinforcement Learning

022 Deep Reinforcement Learning

Swapout: Learning an ensemble of deep architectures

论文笔记5：How to Discount Deep Reinforcement Learning:Towards New Dynamic Strategies

论文笔记：Human-level control through deep reinforcement learning

【论文笔记】Deep Reinforcement Learning for Robotic Pushing and Picking in Cluttered Environment

【论文笔记】Deep Reinforcement Learning Control of Hand-Eye Coordination with a Software Retina

【论文笔记】—— Survey of Deep Reinforcement Learning for Motion Planning of Autonomous Vehicles

论文阅读笔记——《Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning》

Asynchronous methods for deep reinforcement learning论文--学习笔记

Deep Reinforcement Learning is a waste of time

Random Thoughts on Deep Reinforcement Learning

# Asynchronous Methods for Deep Reinforcement Learning

Asynchronous Methods for Deep Reinforcement Learning

论文阅读——《Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning》

Human-Level Control Through Deep Reinforcement Learning论文解读

AMiner推荐论文：Exploration in Deep Reinforcement Learning: A Comprehensive Survey

Deep learning 论文笔记

Deep Reinforcement Learning for Chinese Zero pronoun Resolution读书笔记

CAPES:Unsupervised Storage Performance Tuning Using Neural Network-Based Deep Reinforcement Learning

Explaining How a Deep Neural Network Trained with End-to-End Learning Steers a Car论文笔记

【转载】论文笔记系列-Tree-CNN: A Deep Convolutional Neural Network for Lifelong Learning

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

使用Redis中间件解决商品秒杀活动中出现的超卖问题（使用Java多线程模拟高并发环境）

野指针及c++指针使用注意点

redis 3.0　新特性

(翻译)火狐操作系统javascript API

微信小程序开发入门

mysql数据查询之五子句(where、group by、having、order by和limit)

Codeforces Round #517 Div. 1翻车记

在caffe 中实现Generative Adversarial Nets（二）

企业级漏洞扫描工具

java byte数组与String互转

每日归档

更多

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)