深度强化学习之A3C网络—理论及代码(小车上山) - 代码天地

深度强化学习之A3C网络—理论及代码(小车上山)

其他 2020-03-28 20:17:02 阅读次数: 0

A3C

由于DQN学习过程需要强大的计算能力和大量的训练过程。为此，DeeoMind团队提出了一种新的算法，称为异步优势行为者评论家(A3C)算法，该算法要优于其他深度强化学习算法，因为其需要较少的计算能力和训练时间。A3C的主要思想是通过多个智能体并行学习并整合其所有经验。

A3C网络还可以与其他算法产生更好的精度，在连续和离散行为空间中均有很好的效果。该网络是使用多个智能，且每个智能体在实际环境副本中以不同的探索策略进行并行学习。然后，将这些智能体所获得的经验整合在一起构成全局智能体。全局智能体也称为主网络或全局网络，而其他智能体称为工人。

异步优势行为者

在继续之前，首先分析什么是A3C？其中3个A有什么含义？

在A3C中，第1个A是异步，表明了它是如何工作的。 并不是像在DQN中只有一个智能体来学习最优策略，在此有多个智能体与环境交互。由于同时有多个智能体与环境交互，因此需对每个智能体提供环境副本，以便每个智能体都能与其各自的环境副本进行交互。因此，这些多个智能体称为工人智能体，且有一个称为全局网络的独立智能体、所有智能体均向其汇报。这种全局网络将经验整合在一起。

第2个A是指优势， 在讨论DQN的对抗网络架构时已了解了什么是优势函数。优势函数可定义为Q函数与值函数之差。已知Q函数是确定某一状态下行为的好坏程度，值函数是确定所处状态的好坏程度。那么，直观地考虑Q函数与值函数之差意味着什么呢？其实表明了与其他所有行为相比，智能体在状态s下执行动作a的好坏程度。

猜你喜欢

转载自blog.csdn.net/weixin_43283397/article/details/105120623

深度强化学习之A3C网络—理论及代码(小车上山)

[强化学习实战]DQN算法实战-小车上山(MountainCar-v0)

深度强化学习-A3C算法

深度强化学习系列之（8）----- A3C算法原理及Tensorflow实现

深度强化学习之Policy Gradient & Actor-Critic Model & A3C

强化学习---A3C

强化学习(十五) A3C

第十五章第十五章异步A3C(Asynchronous Advantage Actor-Critic，A3C)-强化学习理论学习与代码实现（强化学习导论第二版）

一文读懂深度强化学习算法 A3C （Actor-Critic Algorithm）

深度强化学习算法 A3C （Actor-Critic Algorithm）

[强化学习论文笔记(６)]:A3C

【强化学习】常用算法之一 “A3C”

强化学习之AC、A2C和A3C

强化学习之AC系列算法（AC、A2C、A3C）

深度强化学习落地方法论算法选择：DQN、DDPG、A3C、PPO、TD3

LSPI 小车上山实例

强化学习算法学习汇总笔记 (二) — Actor Critic、DDPG、A3C、

公开课报名 | 深入浅出理解A3C强化学习

今晚直播 | 深入浅出理解A3C强化学习

直播 | 深入浅出理解 A3C 强化学习

强化学习算法——Actor-Critic Algorithm (A3C)

【强化学习】Asynchronous Advantage Actor-Critic（A3C）

【强化学习】14 —— A3C（Asynchronous Advantage Actor Critic）

【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

机器学习-54-RL-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)

在强化学习领域最受欢迎的A3C算法，DDPG算法，PPO算法等都是AC框架

DRL深度强化学习代码实战1——MountainCar-v0小车成功登顶

深度强化学习-TD3算法原理与代码

Tensorflow实现策略网络（深度强化学习）之cartPole

揭秘深度强化学习-3强化学习理论依据——马尔科夫决策过程

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)