深度强化学习之策略梯度和优化(一) — PolicyGradient

引言

  之前所讲的各种强化学习算法,如DQN、DRQN、A3C。在这些算法中,目标都是为了找到正确的策略,以便能够获得最大的奖励。由于Q函数能够得到哪个行为是在某一状态下执行的最佳行为,因此,使用Q函数来寻找最优策略。在策略梯度的方法中,我们可以不适用策略来得到最优策略。

策略梯度

  策略梯度是强化学习(RL)中一种令人惊叹的算法,可通过一些参数直接优化参数化的策略。在此之前,已学习了利用Q函数来寻找最优策略。现在将学习如何在不使用Q函数的情况下找到最优策略。首先,将策略函数定义为π(a∣s)\pi(a|s)π(a

猜你喜欢

转载自blog.csdn.net/weixin_43283397/article/details/105140600