深度强化学习之策略梯度和优化(二) — DDPG

DDPG

   之前讨论的应用DQN来玩Atari游戏。然而这些都是在离散环境下完成的, 其中具有有限个行为。考虑一个连续的环境空间,如训练机器人行走。在这些环境下,就不能应用 QQQ 学习了,这是因为贪婪策略在每个时间步都需要大量的优化。即使将这一连续环境离散化,也可能会失去一些重要特征,从而最终得到一个庞大的行为空间。在此情况下,很难保证收敛。

   为此,使用一种称为行为者评论家的新架构,其中包括两个网络:行为者网络和评论家网络。行为者评论家架构是将策略梯度和状态行为值函数相结合。行为者网络的作用是通过调节参数 θ\theta

猜你喜欢

转载自blog.csdn.net/weixin_43283397/article/details/105144144