AI强化学习随笔(2)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010255642/article/details/82943002

gym库是一个测试问题的集合——环境——你可以用它来计算你的强化学习算法。这些环境有一个共享的接口,允许您编写通用算法。

安装
首先,您需要安装Python 3.5+。
pip install gym
从源代码构建
如果您愿意,还可以直接克隆gym Git存储库。当你在修改体育馆或者添加环境的时候,这是非常有用的。下载和安装使用:
git clone https://github.com/openai/gym
cd gym
pip install -e .
您可以稍后运行pip install -e .[all]来执行包含所有环境的完整安装。这需要安装几个更复杂的依赖项,包括cmake和最近的pip版本。
环境
这里有一个让东西运行的最小的例子。这将运行一个cartpo -v0环境的实例,执行1000个时间步骤,在每个步骤中呈现环境。您应该会看到弹出一个窗口,呈现经典的cart-pole问题:

import gym
env = gym.make('CartPole-v0')
env.reset()
for _ in range(1000):
    env.render()
    env.step(env.action_space.sample()) # take a random action

http://s3-us-west-2.amazonaws.com/rl-gym-doc/cartpole-no-reset.mp4
通常情况下,我们会在cart-pole被允许离开屏幕之前结束模拟。稍后会详细介绍。

如果您希望看到其他的环境在起作用,请尝试将上面的cartpo -v0替换为MountainCar-v0、MsPacman-v0(需要Atari依赖项)或Hopper-v1(需要MuJoCo依赖项)。环境都来自于Env基类。
注意,如果您遗漏了任何依赖项,您应该会得到一条有用的错误消息,告诉您遗漏了什么。(如果没有明确的指令来修复依赖项,请让我们知道它是否给您带来了麻烦。)安装缺少的依赖关系通常非常简单。您还需要为Hopper-v1提供MuJoCo许可证。

猜你喜欢

转载自blog.csdn.net/u010255642/article/details/82943002