An Introduction to Reinforcement Learning with OpenAI G

作者:禅与计算机程序设计艺术

1.简介

在深度学习、机器学习领域里,通过训练模型去学习数据规律,是一种比较流行的方法。而在强化学习(Reinforcement learning)领域,则将模型和环境分开,让模型自己主动学习数据规律,并根据反馈进行自我优化更新。这种方式不断地尝试新的数据输入,逐渐提升模型的性能。这种学习过程能够有效地解决很多实际问题,包括自动驾驶、机器人控制、游戏决策等。

目前,基于深度学习的强化学习方法已经有了很大的突破,比如AlphaGo、AlphaZero、DQN、DDPG等。其中,OpenAI gym提供了一个平台,让研究人员、开发者可以方便地测试和开发强化学习算法。本文试图通过对Reinforcement learning和OpenAI gym两个领域的一些基础知识、术语、算法原理及其实现方法进行详细讲解。希望读者能够从中受益。

2.基本概念术语说明

2.1 Reinforcement Learning(强化学习)

强化学习是机器学习中的一个子领域,它研究如何通过奖励或惩罚,引导智能体(Agent)从观察到的状态中选择行为,使得环境改变到期望的状态。这种行为一般来说是延迟而且不完全的,也就是说,智能体在每一个时间步长内都需要考虑可能获得的奖赏或损失。

对于智能体来说,每一个时刻的行为都是由环境所给出的奖赏(reward)和惩罚(penalty)决定的,智能体必须学会从各种不同的奖赏和惩罚中寻找最佳的策略。即所谓的马尔可夫决策过程(Marko

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132644827