DQN paper 总结

已读paper

Playing Atari with Deep Reinforcement Learning

Human-level control through deep reinforcement learning

deep-Q-NetWork

思考
1.value-function是如何使用的
2.算法伪代码
3.异策略 行动策略(产生新样本数据的策略,例如e-greedy) 和 评估策略 (Q(s,a)值函数的更新,e.g.选择当前和将来max rewrd的Q(s,a)更新方式)

trick
DQN解决的问题: 非线性逼近action-value常常出现不稳定不收敛的情况
1.experience replay
memory存储previous N个状态集合,形式要求: <s1,a1,r2,s2>,<s2,a2,r3,s3>…
2.单独处理时间差分算法中的TD偏差
target action-value function: r + γMaxQ(s’,a’;θ) 以及需要更新的Q(s,a;θ)
Nerual Net random初始化θ
存在问题: target 以及学习函数使用相同参数使得训练不稳定 方差大
解决方案:
target value-function隔一段固定步数再更新(θ^ = θ) 而Q(s,a;θ)通过SGD不断更新

value-function逼近:
神经网络NN
input:
原始图像像素(灰度+降采样 减少输入维度)
output:
对应action的value(动作集合size在[4,18]之间)

理解
1.target-action-value-function相当于previous的大脑记忆,通过以前的记忆选择可能的action谋取下一步的reward最大化 ==》目标的预测值
2.Q(s,a;θ)通过SGD更新{梯度下降,其中Min-loss-function =(target - Q)^2最小化)

猜你喜欢

转载自blog.csdn.net/u014297722/article/details/82926670
DQN
今日推荐