Actor Critic学习笔记

版权声明:本文为博主原创文章,转载请附上链接出处。 https://blog.csdn.net/allen_li123/article/details/83926953

什么是Actor-Critic

Actor-Critic 的 Actor 是 Policy Gradients,因为他直接根据概率进行选择所以能够很容易选出当前最优解,而Q-learning存在 ϵ g r e e d y \epsilon-greedy 选择,不能及时选择出当前最优解.但是 Policy Gradients 容易陷入局部最优解,而且PG是回合更新,降低了学习效率。 Actor Critic 中的 Critic 是 Q-learning 或者其他的 以值为基础的学习法 , 能进行单步更新,两者结合就解决掉了彼此的缺点。

在这里插入图片描述

如何更新

现在我们有两套不同的体系, Actor 和 Critic, 他们都能用不同的神经网络来代替 . 现实中的奖惩会左右 Actor 的更新情况,但是Policy Gradients 是根据回合结束后的奖惩来更新. 那么如何让Actor进行单步更新呢?我们用一个 Critic 去学习这些奖惩机制, 学习完了以后. 由 Actor 来进行动作采取, 由 Critic 来告诉 Actor 这些动作哪些奖励高, 哪些奖励低, Critic 通过学习环境和奖励之间的关系, 能看到现在所处状态的潜在奖励, 所以用它来指点 Actor 便能使 Actor 每一步都在更新, 如果使用单纯的 Policy Gradients, Actor 只能等到回合结束才能开始更新.

Actor-Critic的改进

Actor-Critic 涉及到了两个神经网络, 而且每次都是在连续状态中更新参数, 每次参数更新前后都存在相关性, 导致神经网络只能片面的看待问题, 甚至导致神经网络学不到东西. Google DeepMind 为了解决这个问题, 修改了 Actor Critic 的算法。

在这里插入图片描述

将 DQN 网络加入进 Actor Critic 系统中, 这种新算法叫做 Deep Deterministic Policy Gradient, 成功的解决的在连续动作预测上的学不到东西问题.

猜你喜欢

转载自blog.csdn.net/allen_li123/article/details/83926953