深度强化学习系列之（6）---OpenAI-baselines的使用方法 - 代码天地

深度强化学习系列之（6）---OpenAI-baselines的使用方法

企业开发 2018-06-10 05:07:21 阅读次数: 3

OpenAI，由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用

OpenAI、DeepMind，伯克利三个可以说是强化学习的推动者，其中OpenAI 为很多算法都写了baselines。本文讲开始运行例子，以A2C算法为例子（具体a2c算法原理后续讲解）：

首先就是安装gym环境，具体直接参考OpenAI的github： https://github.com/openai/gym
本文使用了Atari游戏，那么在gym中需要安装，不然有的游戏可能不会默认安装：

pip install -e '.[atari]'

这是原话：The Atari environments are a variety of Atari video games. If you didn’t do the full install, you can install dependencies via pip install -e ‘.[atari]’ (you’ll need cmake installed) and then get started as follow:

import gym
env = gym.make('SpaceInvaders-v0')
env.reset()
env.render()

下一步就是clone baselines的仓库了：

git clone https://github.com/openai/baselines.git

然后进入目录进行运行：

目录如下：
total 48
drwxrwxr-x  6 jqw  jqw  4096 Jun  8 16:50 .
drwxrwxr-x  3 jqw  jqw  4096 Jun  7 11:07 ..
drwxrwxr-x 15 jqw  jqw  4096 Jun  8 19:42 baselines
drwxr-xr-x  2 root root 4096 Jun  8 16:50 baselines.egg-info
drwxrwxr-x  2 jqw  jqw  4096 Jun  7 11:08 data
-rw-rw-r--  1 jqw  jqw   504 Jun  7 11:08 Dockerfile
drwxrwxr-x  8 jqw  jqw  4096 Jun  7 11:08 .git
-rw-rw-r--  1 jqw  jqw   285 Jun  7 11:08 .gitignore
-rw-rw-r--  1 jqw  jqw  1087 Jun  7 11:08 LICENSE
-rw-rw-r--  1 jqw  jqw  3417 Jun  7 11:08 README.md
-rw-rw-r--  1 jqw  jqw   957 Jun  7 11:08 setup.py
-rw-rw-r--  1 jqw  jqw   224 Jun  7 11:08 .travis.yml

python3 -m baselines.a2c.run_atari

就可以了，其他的算法同样的道理。

注意：此处使用给的是python3,
那么对应需要在python3下安装numpy, matplotlib, tensorflow, 等一系列库，此处省略

参考：
https://github.com/openai/gym
https://github.com/openai/baselines

猜你喜欢

转载自blog.csdn.net/gsww404/article/details/80627892

深度强化学习系列之（6）---OpenAI-baselines的使用方法

【深度强化学习】OpenAI Gym的使用

【Tensorlayer系列】深度强化学习之DQN求解FrozenLake

深度强化学习系列（二）：强化学习基础

深度强化学习系列（一）：强化学习概述

强化学习系列6：有模型的价值迭代方法

强化学习系列3：Open AI的baselines和Spinning Up

Openai Gym与强化学习

强化学习 ---baselines项目之 Atari游戏的网络结构解析

机器人强化学习之使用 OpenAI Gym 教程与笔记

深度强化学习及其在自动驾驶中的应用: DRL&ADS系列之(1): 强化学习概述

(重磅)深度强化学习系列之（7）-----强化学习《奖励函数》的设计和设置（reward shaping）

【深度强化学习】交叉熵方法

深度强化学习调参方法

强化学习 baselines项目源码部分解读

深度强化学习之简介

深度强化学习之DQN实战

深度强化学习

强化学习之策略policy 6

【Tensorlayer系列】深度强化学习之FrozenLake介绍及表格型Q学习求解

深度强化学习之DQN-深度学习与强化学习的成功结合

深度强化学习之（6）--附加问题：ERROR: GLEW initalization error: Missing GL version

深度强化学习系列之（8）----- A3C算法原理及Tensorflow实现

深度强化学习系列之（５）前言———策略梯度（Policy Gradient）

深度强化学习及其在自动驾驶中的应用: DRL&ADS系列之(2): 深度强化学习DQN原理

【深度强化学习】深度学习：Pytorch的使用

从Zero到Hero，OpenAI重磅发布深度强化学习资源

深度强化学习——蒙特卡洛算法(6)

深度强化学习系列第一讲 DQN

深度强化学习系列（三）Value iteration Network

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)