[强化学习论文笔记(６)]:A3C - 代码天地

[强化学习论文笔记(６)]:A3C

其他 2020-01-02 21:17:32 阅读次数: 0

Asynchronous Methods for Deep Reinforcement Learning

论文地址

笔记

出发点:

online agent 观察到的状态数据是不稳定的(non-stationary) 并且相关。

DQN 用到了experience replay, 可以使用batch 和 random sample来和普通深度学习里的训练挂钩

A3C自然要把experience reply 批判一番:

更多的内存和更多的计算资源
用了off-policy 数据由一个更older的policy产生。(但是这也不算缺点吧，DQN说off-policy是自己的优点)

A3C 就是异步多线程的AC。AC暂且不表。人人都爱多线程，每一个agent 都在自己的线程里愉快的玩耍，然后更新global shared 的参数.相当于虽然我是online, on-policy.但是每一时刻我都有大量不相干的数据用于训练，很好。

不过更新的时候全然不顾我们在课堂上辛辛苦苦学习的进程安全，进程锁之类的，不上锁就是干。其实也没什么问题。

A3C自然要把自己的优点给搞个big news:

节省计算硬件，（对比的GPU是k40）
on-polcy的算法都可以通过这种方式获益
不再需要experience replay
不同的agent探索的很可能不一样，天然的就很"探索"
时间和线程成线性反比关系

猜你喜欢

转载自www.cnblogs.com/Lzqayx/p/12141966.html

[强化学习论文笔记(６)]:A3C

强化学习---A3C

强化学习(十五) A3C

强化学习算法学习汇总笔记 (二) — Actor Critic、DDPG、A3C、

深度强化学习-A3C算法

【强化学习】常用算法之一 “A3C”

【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

[强化学习论文笔记(7)]:DPG

强化学习之AC、A2C和A3C

强化学习之AC系列算法（AC、A2C、A3C）

一文读懂深度强化学习算法 A3C （Actor-Critic Algorithm）

深度强化学习系列之（8）----- A3C算法原理及Tensorflow实现

深度强化学习算法 A3C （Actor-Critic Algorithm）

公开课报名 | 深入浅出理解A3C强化学习

今晚直播 | 深入浅出理解A3C强化学习

直播 | 深入浅出理解 A3C 强化学习

深度强化学习之Policy Gradient & Actor-Critic Model & A3C

强化学习算法——Actor-Critic Algorithm (A3C)

深度强化学习之A3C网络—理论及代码(小车上山)

【强化学习】Asynchronous Advantage Actor-Critic（A3C）

【强化学习】14 —— A3C（Asynchronous Advantage Actor Critic）

机器学习-54-RL-Actor-Critic(强化学习-A2C,A3C,Pathwise Derivative Policy Gradient)

深度强化学习落地方法论算法选择：DQN、DDPG、A3C、PPO、TD3

第十五章第十五章异步A3C(Asynchronous Advantage Actor-Critic，A3C)-强化学习理论学习与代码实现（强化学习导论第二版）

在强化学习领域最受欢迎的A3C算法，DDPG算法，PPO算法等都是AC框架

【论文笔记】基于视觉特征提取的强化学习自动驾驶系统

【论文笔记】基于生成对抗网络的强化学习算法的研究

【论文笔记】基于深度强化学习的机器人操作行为研究综述

【论文笔记】基于深度强化学习的密集物体温度优先推抓方法

强化学习中的 AC（Actor-Critic）、A2C（Advantage Actor-Critic）和A3C（Asynchronous Advantage Actor-Critic）算法

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)