强化学习-01-基本介绍

强化学习(reinforment learning)

基本介绍

强化学习是机器学习的一个分支,是解决序列决策问题 ,具体而言就是agent(agent理解为计算机或者自己的算法找的一个去与环境交互的代理人)基于观察的环境选择合适的行动来获得最优化的收益。强化学习与人类学习过程极其类似,很好理解。人的学习过程,比如说学习骑自行车,首先,你骑上去,发现平衡不好控制,于是你不断的尝试,一开始也许在自行车往左倾,你也往左,然后你发现车倒了,于是你下次自行车左倾时你尽量不往左。而且发现往车左倾的时候,人往右倾,车子坚持了一下。于是你学到了一些东西,慢慢的一左一右,摇摇晃晃,慢慢平稳最终学会了骑车。从这个例子可以参看Openai的gym的CartPole-v0这个例子。也希望通过后续的学习去完成这一例子。

一根杆子由一个推车支撑着,沿着轨道无摩擦运动,通过向推车施加向左向右得力来维持的直立,每维持一个时间步长就提供+1的奖励。当杆与垂直方向相差超过15度、达到200分或者从中心移动超过2.4个单位的时候,结束一个episode。openai将这一问题视为解决是连续100次实验获得195.0以上的平均奖励。

cartpole

强化学习在机器学习中的地位

如图所示,机器学习通常分为三种主要类型的学习(也有分为四种的):监督学习,无监督学习,强化学习。在监督、非监督学习中,数据是静态的,而在强化学习中,代理人与环境之间有互动。

  • 监督式学习:由示例输入-输出,找出之间的映射关系,然后推广到新数据。
  • 非监督式学习:找出未标记的数据之间的隐藏结构。
  • 强化学习:设置奖励,在与环境不断交互中习得好的策略。

强化学习与二者相比,其没有监督者,只有奖励信号,且其奖励信号不是瞬时的,是延迟的。代理人的行为会影响环境,从而影响自己下一步的状态及行为。

强化学习应用广泛,可应用于机器人控制,自然语言处理,计算机视觉,计算机系统,交通,能源,金融等方面。当然强化学习涉及的知识也是相当广泛。心理学,运筹学,控制论,脑科学等的进步可能都会极大促进强化学习的发展。

强化学习中的关键概念:

  • 代理人(agent):在环境中行动的个体
  • 环境(environment):代理人所处于的世界
  • 行动空间(action space):代理人所有行动的集合
  • 状态空间(state space):代理人在某时刻所处状态的集合
  • 奖励(reward):代理人采取某一动作的反馈
  • 策略(policy):面对目标采取的一系列动作。换句话说,就是代理人试图从某种状态到另外一种状态。需要注意的是,策略可以由不同的动作序列组成,但初末状态是一致的。这很好理解,自行车骑起来了,称之为骑行策略。骑自行车先左脚还是先右脚动作都是这一个策略的。
  • 价值(value):某一策略的期望收益。这里是期望就比较好理解了,一个策略对应不同的动作序列。因为这些动作是某一概率分布的,组合起来是不一样的,自然只能算期望。

现在通过这些概念来理解强化学习。就是说,代理人在某一环境中,通过设置到达某一状态的奖励(惩罚理解为负奖励),使得代理人尽可能的处于或避免某种状态。当然为了到达这种状态,代理人需要不断的尝试,学习通过明白自己目前所处的状态,采取一系列动作,从而找到一种好的策略到达目标状态。这一切很明显是一个决策过程,即判断自己状态,采取一个好的动作,到达另一个状态,如此继续,使得自己去得到最大奖励。

如图:

强化学习过程

强化学习分类

了解强化学习的分类有利于之后的学习,因此将常见的两种分类列出来。基础的强化学习基本上就是在这两种分类中。

  • 按照是否依赖模型分为有模型学习无模型学习。有模型是指agent对环境相当了解了,明白在在某种状态下,采取某种动作,可能到达下一某种状态。因此,有模型只需要去学习动作的优劣,而无模型不但但要在不断探索中去学到某状态下动作之后,状态的转变,还得学习判断动作的优劣。基本上,处理的都是无模型学习的问题。
  • 根据强化学习的寻找策略的方法不同,分为基于值函数策略梯度两种情况。强化学习过程就是在面对不同状态,学到该状态下好的决策。如果说找策略过程,是找到一个函数,变量为状态,其值大小表示决策的好坏,这种方法称为基于值函数的强化学习。如果说,直接将策略参数化,直接来求策略,该方法称为基于策略梯度的强化学习。

强化入门学习资源

强化学习经典方法论文

总结

强化学习是一个不断尝试的过程,目的就是建立状态与动作之间的好的映射,从而使之能够进行一系列的决策。

猜你喜欢

转载自blog.csdn.net/qq_37748396/article/details/86654034