强化学习(reinforment learning)

基本介绍

强化学习是机器学习的一个分支，是解决序列决策问题，具体而言就是agent(agent理解为计算机或者自己的算法找的一个去与环境交互的代理人)基于观察的环境选择合适的行动来获得最优化的收益。强化学习与人类学习过程极其类似，很好理解。人的学习过程，比如说学习骑自行车，首先，你骑上去，发现平衡不好控制，于是你不断的尝试，一开始也许在自行车往左倾，你也往左，然后你发现车倒了，于是你下次自行车左倾时你尽量不往左。而且发现往车左倾的时候，人往右倾，车子坚持了一下。于是你学到了一些东西，慢慢的一左一右，摇摇晃晃，慢慢平稳最终学会了骑车。从这个例子可以参看Openai的gym的CartPole-v0这个例子。也希望通过后续的学习去完成这一例子。

一根杆子由一个推车支撑着，沿着轨道无摩擦运动，通过向推车施加向左向右得力来维持的直立，每维持一个时间步长就提供+1的奖励。当杆与垂直方向相差超过15度、达到200分或者从中心移动超过2.4个单位的时候，结束一个episode。openai将这一问题视为解决是连续100次实验获得195.0以上的平均奖励。

强化学习在机器学习中的地位

如图所示，机器学习通常分为三种主要类型的学习(也有分为四种的)：监督学习，无监督学习，强化学习。在监督、非监督学习中，数据是静态的，而在强化学习中，代理人与环境之间有互动。

监督式学习：由示例输入-输出，找出之间的映射关系，然后推广到新数据。
非监督式学习：找出未标记的数据之间的隐藏结构。
强化学习：设置奖励，在与环境不断交互中习得好的策略。

强化学习与二者相比，其没有监督者，只有奖励信号，且其奖励信号不是瞬时的，是延迟的。代理人的行为会影响环境，从而影响自己下一步的状态及行为。

强化学习应用广泛，可应用于机器人控制，自然语言处理，计算机视觉，计算机系统，交通，能源，金融等方面。当然强化学习涉及的知识也是相当广泛。心理学，运筹学，控制论，脑科学等的进步可能都会极大促进强化学习的发展。

强化学习中的关键概念:

代理人(agent):在环境中行动的个体
环境(environment):代理人所处于的世界
行动空间(action space):代理人所有行动的集合
状态空间(state space):代理人在某时刻所处状态的集合
奖励(reward):代理人采取某一动作的反馈
策略(policy):面对目标采取的一系列动作。换句话说，就是代理人试图从某种状态到另外一种状态。需要注意的是，策略可以由不同的动作序列组成，但初末状态是一致的。这很好理解，自行车骑起来了，称之为骑行策略。骑自行车先左脚还是先右脚动作都是这一个策略的。
价值(value):某一策略的期望收益。这里是期望就比较好理解了，一个策略对应不同的动作序列。因为这些动作是某一概率分布的，组合起来是不一样的，自然只能算期望。

现在通过这些概念来理解强化学习。就是说，代理人在某一环境中，通过设置到达某一状态的奖励(惩罚理解为负奖励)，使得代理人尽可能的处于或避免某种状态。当然为了到达这种状态，代理人需要不断的尝试，学习通过明白自己目前所处的状态，采取一系列动作，从而找到一种好的策略到达目标状态。这一切很明显是一个决策过程，即判断自己状态，采取一个好的动作，到达另一个状态，如此继续，使得自己去得到最大奖励。

如图:

强化学习分类

了解强化学习的分类有利于之后的学习，因此将常见的两种分类列出来。基础的强化学习基本上就是在这两种分类中。

按照是否依赖模型分为有模型学习与无模型学习。有模型是指agent对环境相当了解了，明白在在某种状态下，采取某种动作，可能到达下一某种状态。因此，有模型只需要去学习动作的优劣，而无模型不但但要在不断探索中去学到某状态下动作之后，状态的转变，还得学习判断动作的优劣。基本上，处理的都是无模型学习的问题。
根据强化学习的寻找策略的方法不同，分为基于值函数和策略梯度两种情况。强化学习过程就是在面对不同状态，学到该状态下好的决策。如果说找策略过程，是找到一个函数，变量为状态，其值大小表示决策的好坏，这种方法称为基于值函数的强化学习。如果说，直接将策略参数化，直接来求策略，该方法称为基于策略梯度的强化学习。

强化入门学习资源

Reinforcement Learning:An Introduction.Richard S.Sutton and Andrew G.Barto .这是入门必看书籍。
David Silver个人主页 Google DeepMind负责人，在其主页上有关于强化学习的视频和PPT。在b站上有翻译的视频。
OpenAI Spinning Up这是openai发布的入门教学加练手的课程。

强化学习经典方法论文

[Q-learning][1992]Q-Learning
[Saras][1994]On-Line Q-Learning Using Connectionist Systems
[TRPO][2014,icml]Trust Region Policy Optimization
[DPG][2014,icml]Deterministic Policy Gradient Algorithms
[DQN][2015.nature]Human-level control through Deep Reinforcement Learning
[Double DQN][2016.aaai]Deep Reinforcement Learning with Double Q-learning
[Dueling DQN][2016,icml]Dueling Network Architectures for Deep Reinforcement Learning
[A3C][2016,icml]Asynchronous Methods for Deep Reinforcement Learning
[DDPG][2016，iclr]Continuous control with deep reinforcement learning
[PPO][2017]Proximal Policy Optimization Algorithms

总结

强化学习是一个不断尝试的过程，目的就是建立状态与动作之间的好的映射，从而使之能够进行一系列的决策。

强化学习-01-基本介绍

强化学习(reinforment learning)

基本介绍

猜你喜欢