【转载】 强化学习(十一) Prioritized Replay DQN 强化学习(十)Double DQN (DDQN)

原文地址:

https://www.cnblogs.com/pinard/p/9797695.html

----------------------------------------------------------------------------------------

        在强化学习(十)Double DQN (DDQN)中,我们讲到了DDQN使用两个Q网络,用当前Q网络计算最大Q值对应的动作,用目标Q网络计算这个最大动作对应的目标Q值,进而消除贪婪法带来的偏差。今天我们在DDQN的基础上,对经验回放部分的逻辑做优化。对应的算法是Prioritized Replay DQN。

猜你喜欢

转载自www.cnblogs.com/devilmaycry812839668/p/10681479.html
今日推荐