Playing Atari with Deep Reinforcement Learning:打响DRL的第一枪 - 代码天地

Playing Atari with Deep Reinforcement Learning:打响DRL的第一枪

其他 2019-12-30 23:17:33 阅读次数: 0

这篇文章就是DQN,DRL领域非常重要的一篇文章,也是David Silver大神的工作。文章本身没有什么难度。

文章说了RL和DL 的两个不同之处
-　DL 尤其是supervised learning 需要大量的labelled training data, 强化学习只有一个scalar Reward，并且reward很可能　noisy, sparse, delayed
-　DL 通常假设数据是独立同分布的，但是强化学习的数据前后有高度的相关性，数据分布也会变化

DQN 其实就是Q-learning 的神经网络版本，基础理论是一致的，就是解决几个迁移到神经网络上遇到的问题

Bellman optimal equation: \(Q_*(s,a) =E_{s'\sim \varepsilon}[r+ \gamma \underset{a'}{max}Q(s',a')|s,a]\)

使用的是value iteration 来进行GPI，要优化的目标函数是：
\[L_i(\theta_i) = E_{s,a\sim\rho(\cdot)}[(y_i-Q(s,a;\theta_{i}))^2]\]
\(\rho(s,a)\)是behaviour distribution,\(y_i = E_{s'\sim \varepsilon }[r+ \gamma \underset{a'}{max}Q(s',a';\theta_{i-1})|s,a]\)

求导之后的公式为:(semi-gradient)

\[\nabla_{\theta_i}L_i(\theta_i) = E_{s,a \sim\rho(\cdot);s'\sim \varepsilon}[r+\gamma \underset{a'}{max} Q(s',a';\theta_{i-1})-Q(s,a;\theta_i))\nabla_{\theta_i} Q(s,a;\theta_i)]\]

为了解决数据分布问题，使用了experience replay

算法为：

算法优势：
１．每一步经验都可以重复使用，提高了data efficiency
２. 从replay buffer中随机sample,一定程度上打破了数据之间的联系，减小了方差
３．off-policy 更加smooth,不容易陷入局部最优

猜你喜欢

转载自www.cnblogs.com/Lzqayx/p/12122020.html

Playing Atari with Deep Reinforcement Learning:打响DRL的第一枪

Playing Atari with Deep Reinforcement Learning论文解读

算法笔记：Playing Atari with Deep Reinforcement Learning

【5分钟 Paper】Playing Atari with Deep Reinforcement Learning

《Playing Atari with Deep Reinforcement Learning 》论文阅读笔记和分析（DQN 2013版）

从Playing Atari with Deep Reinforcement Learning 看神经网络的输入，学习的状态空间

Playing Go using Deep Reinforcement Learning without Hu

DRL在计算机视觉、机器学习等领域的应用 Deep Reinforcement Learning for Atari Games

Relational Deep Reinforcement Learning

022 Deep Reinforcement Learning

Deep Reinforcement Learning is a waste of time

Random Thoughts on Deep Reinforcement Learning

Asynchronous Methods for Deep Reinforcement Learning

# Asynchronous Methods for Deep Reinforcement Learning

DRL前沿之：Benchmarking Deep Reinforcement Learning for Continuous Control

Deep Reinforcement Learning with Double Q-learning

Deep Reinforcement Learning: Pong from Pixels

Deep Reinforcement Learning 深度增强学习资源

Deep Reinforcement Learning 基础知识

Deep Reinforcement Learning （paper reading notes）

解读continuous control with deep reinforcement learning（DDPG）

Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning

Deep Reinforcement Learning with Iterative Shift for Visual Tracking

Dueling Network Architectures for Deep Reinforcement Learning: DuelingDQN

李宏毅Deep Reinforcement Learning笔记

Exploration Strategies in Deep Reinforcement Learning (2)

Exploration Strategies in Deep Reinforcement Learning (1)

Deep Reinforcement Learning for AutomatedStock Trading: An Ensemble Strategy

DQN Tutorial – Deep Reinforcement Learning with PyTorch

DRL-ISP: Multi-Objective Camera ISP with Deep Reinforcement Learning

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)