强化学习算法 TD3 论文:Addressing Function Approximation Error in Actor-Critic Methods 2018.10. ,作者本人的 TD3 代码,PyTroch 实现
与原版 DDPG 相比,TD3 的改动可以概括为:
- 使用与双 Q 学习(Double DQN)相似的思想:使用两个 Critic(估值网络 Q(s, a))对动作 - 值进行评估,训练的时候取 min ( Q θ 1 ( s , a )
强化学习算法 TD3 论文:Addressing Function Approximation Error in Actor-Critic Methods 2018.10. ,作者本人的 TD3 代码,PyTroch 实现
与原版 DDPG 相比,TD3 的改动可以概括为: