强化学习算法TD3论文的翻译与解读:延迟学习、软更新、策略噪声、梯度截取

强化学习算法 TD3 论文:Addressing Function Approximation Error in Actor-Critic Methods 2018.10. ,作者本人的 TD3 代码,PyTroch 实现

与原版 DDPG 相比,TD3 的改动可以概括为:

  • 使用与双 Q 学习(Double DQN)相似的思想:使用两个 Critic(估值网络 Q(s, a))对动作 - 值进行评估,训练的时候取 min ⁡ ( Q θ 1 ( s , a )

猜你喜欢

转载自blog.csdn.net/sinat_39620217/article/details/131726129