（转）谷歌公开dopamine - 代码天地

（转）谷歌公开dopamine

其他 2018-09-25 23:52:56 阅读次数: 0

上周那个在DOTA2 TI8赛场上“装逼失败”的OpenAI Five，背后是强化学习的助推。

其实不仅仅是OpenAI Five，下围棋的AlphaGo和AlphaGo Zero、玩雅达利街机游戏的DeepMind DQN（deep Q-network），都离不开强化学习（Reinforcement Learning）。

现在，谷歌发布了一个基于TensorFlow的强化学习开源框架，名叫Dopamine。

另外，还有一组Dopamine的教学colab。

和它的名字Dopamine（多巴胺）一样，新框架听上去就令人激动。

清晰，简洁，易用

新框架在设计时就秉承着清晰简洁的理念，所以代码相对紧凑，大约是15个Python文件，基于Arcade Learning Environment (ALE)基准，整合了DQN、C51、 Rainbow agent精简版和ICML 2018上的Implicit Quantile Networks。

可再现

新框架中代码被完整的测试覆盖，可作为补充文档的形式，也可以用ALE来评估。

基准测试

为了让研究人员能快速比较自己的想法和已有的方法，该框架提供了DQN、C51、 Rainbow agent精简版和Implicit Quantile Networks的玩ALE基准下的那60个雅达利游戏的完整训练数据，以Python pickle文件和JSON数据文件的格式存储，并且放到了一个可视化网页中。

在这里插入图片描述

另外，新框架中还有训练好的深度网络、原始统计日志，以及TensorBoard标注好的TensorFlow事件文件。

传送门开源框架资源

Dopamine谷歌博客：

https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

Dopamine github下载：

https://github.com/google/dopamine/tree/master/docs#downloads

colabs：

https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

游戏训练可视化网页：

https://google.github.io/dopamine/baselines/plots.html

相关资料

ALE基准：

https://arxiv.org/abs/1207.4708

DQN（DeepMind）：

https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

C51（ICML 2017）：

https://arxiv.org/abs/1707.06887

Rainbow：

https://arxiv.org/abs/1710.02298

Implicit Quantile Networks（ICML 2018）：

https://arxiv.org/abs/1806.06923

猜你喜欢

转载自blog.csdn.net/lvsehaiyang1993/article/details/82773522

（转）谷歌公开dopamine

Dopamine 使用教程

Dopamine 使用教程2

PDF转HTML技巧大公开

可访问的谷歌地址（转）

转：谷歌离线地图基础

dopamine源码解析之dqn_agent

转:谷歌将对企业使用谷歌地图收费

谷歌创始人发公开信：人工智能进入春天

谷歌公开简化数据科学工作流程的内部工具—Colaboratory

谷歌“数据安全”，要求开发者公开其应用收集的数据信息

谷歌公开测试Google Bard聊天机器人【附排队地址】

谷歌公开.zip域名，应采取哪些措施应对可能的安全风险？

谷歌地图API即将收费[转]

(转:) 谷歌正在解决敏感词的烦恼

一次谷歌面试趣事(转)

openlayers之加载谷歌地图（转）

一次谷歌面试趣事（转）

【转】如何使用谷歌的protocolBuffer（for C++）

谷歌地图转百度地图

Dopamine - 灵活、可重复的强化学习研究新框架

Google dopamine 搜索框架算法 -py 语言-立哥开发

[转]为什么谷歌要执行严格的代码编写规范

2013谷歌首批笔试题【京，转自同学】

谷歌的免费DNS服务8.8.8.8(转自csdn)

谷歌搜索技巧（转）https://www.runningcheese.com/google

最好的程序员凡事先上谷歌搜索【转】

转：Selenium——谷歌浏览器和驱动映射关系

Web长列表的救星？谷歌推出Virtual Scroller[转]

[深度学习概念]·谷歌transformer论文解读（转）

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)