论文笔记5：How to Discount Deep Reinforcement Learning:Towards New Dynamic Strategies

参考资料：How to Discount Deep Reinforcement Learning: ...

为帮助跟我一样的小白，如果有大神看到错误，还请您指出，谢谢~

知乎同名：uuummmmiiii

创新点：相比于原始DQN不固定折扣因子（discount factor,γ），学习率（learning rate,α）

改进：变化discount factor 和 learning rate

改进原因：原始的DQN，即用NN代替Q表“存储”Q值，会出现系统不稳定的情况（应该是涉及到强化学习中状态之间有相关性，而NN中假设的输入都是独立同分布的问题）

带来益处：加快学习算法收敛，提高系统稳定性

Abstract

在强化学习中采用深度网络做函数估计已经取得了很大的进展（DQN），在DQN这个基准之上进行改进，本文阐述了discount factor在DQN的学习过程中起到的作用，当diacount factor在训练过程中逐渐增长到它的最终值，我们实力验证了这样可以减少learning step,即加快收敛。如果再伴随着learning rate的变化（减少），可以增加系统稳定性，表现在后面验证中，可以降低过拟合。我们的算法容易陷入局部最优，采用actor-critic算法增加exploration，防止陷入僵局和无法发现some parts of the state space.