DQN paper 总结 - 代码天地

DQN paper 总结

其他 2019-03-31 18:20:05 阅读次数: 0

已读paper

Playing Atari with Deep Reinforcement Learning

Human-level control through deep reinforcement learning

deep-Q-NetWork

思考
1.value-function是如何使用的
2.算法伪代码
3.异策略行动策略(产生新样本数据的策略,例如e-greedy) 和评估策略 (Q(s,a)值函数的更新,e.g.选择当前和将来max rewrd的Q(s,a)更新方式)

trick
DQN解决的问题: 非线性逼近action-value常常出现不稳定不收敛的情况
1.experience replay
memory存储previous N个状态集合,形式要求: <s1,a1,r2,s2>,<s2,a2,r3,s3>…
2.单独处理时间差分算法中的TD偏差
target action-value function: r + γMaxQ(s’,a’;θ) 以及需要更新的Q(s,a;θ)
Nerual Net random初始化θ
存在问题: target 以及学习函数使用相同参数使得训练不稳定方差大
解决方案:
target value-function隔一段固定步数再更新(θ^ = θ) 而Q(s,a;θ)通过SGD不断更新

value-function逼近:
神经网络NN
input:
原始图像像素(灰度+降采样 减少输入维度)
output:
对应action的value(动作集合size在[4,18]之间)

理解
1.target-action-value-function相当于previous的大脑记忆,通过以前的记忆选择可能的action谋取下一步的reward最大化 ==》目标的预测值
2.Q(s,a;θ)通过SGD更新{梯度下降,其中Min-loss-function =(target - Q)^2最小化)

猜你喜欢

转载自blog.csdn.net/u014297722/article/details/82926670

DQN paper 总结

DQN用到的函数总结

DeepReinforcementlearning:AnOverview paper总结

paper writing 规则总结

pointpillars Paper学习总结

DQN

强化学习总结（2）———DQN

深度学习总结：the tips of q-learnig,target network,exploration,experience replay, double DQN, dueling DQN

《Paper》

ｐａｐｅｒ

总结 | 近期Chatbot领域值得读的paper

Paper写作总结怎么做好？

DQN从入门到放弃学习总结（2）

深度学习总结：DQN原理，算法及pytorch方式实现

强化学习总结（3）———Dueling-DQN

DQN(1)

DQN笔记

DQN及其变种（Double DQN，优先回放，Dueling DQN)

强化学习 - DQN及进化过程（Double DQN,Dueling DQN）

DQN 原理（二）：理解 DQN 中的“Q”

paper总结（10）SOFTMATCH: ADDRESSING THE QUANTITY-QUALITYTRADE-OFF IN SEMI-SUPERVISED LEARNING

paper总结（9）FREEMATCH: SELF-ADAPTIVE THRESHOLDING FORSEMI-SUPERVISED LEARNING

DQN 从入门到放弃

DRL---------DQN详解

DQN解决cartpole原理

004-DQN

换个角度理解DQN

DQN important information

增强学习--DQN的变形

Double DQN的理解

今日推荐

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

对话Kaldi之父、小米首席语音科学家Daniel Povey：开源环境比金钱和荣誉更吸引我 | AGI技术50人...

Hugging Face全攻略：轻松下载Llama 3模型，探索NLP的无限可能！【实操】

阅读送书抽奖？玩转抽奖游戏，js-tool-big-box工具库新上抽奖功能

百度发布Comate代码知识增强2.0，国内首个支持实时检索智能代码助手

黑客利用扫雷游戏 Python 克隆隐藏恶意脚本，攻击欧洲和美国金融机构

微软对开源字体 Cascadia Code 进行重大更新

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

周排行

WebSocket、HTTP 与 TCP

private,public,protected的区别

Python用了这么多年，总结出超实用的功能和特点

dgwp笔记

ModuleNotFoundError: No module named 'gdbm'

数组的去重方法

Ternsorflow 学习：005-MNIST 实现模型

SpringBoot 2 源码学习笔记（二）

jaxws-spring 搭建Web Services笔记

读取properties文件并获取属性值

每日归档

更多

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)