深度强化学习之A3C网络—理论及代码(小车上山)

A3C

  由于DQN学习过程需要强大的计算能力和大量的训练过程。为此,DeeoMind团队提出了一种新的算法,称为异步优势行为者评论家(A3C)算法,该算法要优于其他深度强化学习算法,因为其需要较少的计算能力和训练时间。A3C的主要思想是通过多个智能体并行学习并整合其所有经验。

  A3C网络还可以与其他算法产生更好的精度,在连续和离散行为空间中均有很好的效果。该网络是使用多个智能,且每个智能体在实际环境副本中以不同的探索策略进行并行学习。然后,将这些智能体所获得的经验整合在一起构成全局智能体。全局智能体也称为主网络或全局网络,而其他智能体称为工人。


异步优势行为者

  在继续之前,首先分析什么是A3C?其中3个A有什么含义?

   在A3C中,第1个A是异步,表明了它是如何工作的。 并不是像在DQN中只有一个智能体来学习最优策略,在此有多个智能体与环境交互。由于同时有多个智能体与环境交互,因此需对每个智能体提供环境副本,以便每个智能体都能与其各自的环境副本进行交互。因此,这些多个智能体称为工人智能体,且有一个称为全局网络的独立智能体、所有智能体均向其汇报。这种全局网络将经验整合在一起。

   第2个A是指优势, 在讨论DQN的对抗网络架构时已了解了什么是优势函数。优势函数可定义为Q函数与值函数之差。已知Q函数是确定某一状态下行为的好坏程度,值函数是确定所处状态的好坏程度。那么,直观地考虑Q函数与值函数之差意味着什么呢?其实表明了与其他所有行为相比,智能体在状态s下执行动作a的好坏程度。

  

猜你喜欢

转载自blog.csdn.net/weixin_43283397/article/details/105120623