强化学习:入门 第一章读书笔记

第一章读书笔记

 

引子:

  自从婴儿开始,婴儿就能够从与环境的交互中学习。从与环境的交互中学习是差不多所有学习和智能的最基础的理论。书中我们以人工智能工程师和研究者的身份用计算的方法,研究不同方法的效果。强化学习与其他机器学习相比较而言更注重目标引导。

1.1强化学习

  强化学习主要是学习如何从既定状态中映射出最佳行动,以便最大化数值奖赏信号。强化学习中两个最明显的特点是试错搜索和延迟效应。

  弄清强化学习的定义十分重要,强化学习有三方面的内容,同时有问题,能很好地解决这类问题的方法,和研究问题和解决方法的有关领域。

  部分可观察马氏决策过程:简单来说部分可观察马氏决策过程的基本思想是抓住智能体为了达到目标与环境交互来学习这类问题的最重要的地方,利用动态系统的理论来形式化强化学习的问题。

  与监督学习的差别:监督学习方法应用于现在大多数的研究中。监督学习从已知标签的数据集中学习并训练自己,然后推算和概括出对新情况的反应及行动,得靠已有的知识。这是一种非常重要的学习方式,但是解决所有的环境交互问题是不切实际的。而强化学习是能从自己的经验中学习的。

  与非监督学习的差别:非监督学习是从没有标签的数据中找到隐藏的结构。这与强化学习是不同的,强化学习是尽力来最大化反馈的信号。所以我们称强化学习是第三种机器学习的方法。

  强化学习的挑战之一:难以平衡探索新数据和利用已有信息的程度。(没出现在监督和非监督学习中)

  强化学习的一个关键特点:从总体的角度来考虑学习智能体与环境交互学习的问题。与其他学习方法不同(如监督学习)强化学习从一个完全的,交互的,目标导向的智能体开始的。所有的智能体有明确的目标,能感知外界,能采取行动影响环境。并且一般假设即使他面对十分不确定的环境也必须采取行动。监督学习的方法也可能被用到,一般是因为用它来判断反馈信号的。研究子系统也能被用到,但研究子系统在整个问题中有十分明确的定位。

  强化学习的应用对象不仅仅只是机器人之类的对象,也可能是机器人的一个构件,它与子系统,构成环境的关系。所以说要真正把握强化学习的要义。

  现代强化学习的最令人振奋特点之一是与其他工程和学科的紧密结合。强化学习是最接近人类和其他动物学习方式的方法。

  最后,强化学习是人工智能朝着一般化理论大趋势的一部分。在70年代末,许多人工智能研究者就假定没有一般化的原理,相反智能是从大量的数据中训练出来的。在今天这种观点也十分常见,但是并没有主导。我们看来这种观点非常不成熟,而且在这方面的研究和努力也远远不够。现代人工智能也包括了许多朝着一般化理论学习的研究,也加入了大量的专业领域知识。朝着一般化的理论的研究能走多远,时间才能告诉答案。

1.2 例子

  所有的这些例子都包括做出决策的智能体和环境,寻找达成目标的方法尽管环境的不确定性。

在这些例子中,现阶段的决策都会或多或少的影响后来的行动及环境。所以做出决策需要计划和预测。

  同时,这些例子中行动是不能被充分准备的,因此智能体必须频繁的监视环境并合适的做出反应。随之时间和经验的积累,智能体能提高自己的表现。

1.3 强化学习的组成元素

  除了智能体和环境,强化学习还有4个组成元素:策略,反馈信号,值函数,和可选的环境模型。

  策略规定了在一个给定的时间内智能体表现的方式。通俗的讲,策略是从既定的环境状态中映射出行动的映射。

  反馈信号规定了强化学习的目标。反馈型号是改变策略的最主要基础。

  值函数(value)是对未来的预期。通俗的讲值函数的值是智能体能从该状态下能积累的反馈信号之和。

Reward value的基础。事实上,我们认为在几乎所有的强化学习算法中最重要的是寻找计算出有效估计值的方法。值的估计是可争辩的强化学习上60年中最重要的步骤。

环境模型可以模仿环境的行为。例如给定一个action state,环境模型能预测接下来的状态。

1.4局限和范围

  强化学习的研究非常依赖于状态,但是本书的重点不是状态而是做出决策的部分。在本书中大多数强化学习的方法都是研究值函数的,但不是说非得用它来解决强化学习问题。例如遗传算法,遗传编程,模拟退火等都没有估计值函数的步骤。这些方法采用多个静态的方法,每个都用于环境的不同部分,然后选择最高效的或者最小偏差的策略。进化算法经常应用于策略空间比较小的或者问题容易被结构化等需要搜索时间少的问题中,而且十分高效。

  但强化学习的中心是在与环境的交互中学习。进化学习并没有意识到 state action及由state映射到actionvalue function。尽管进化和学习有许多相似的地方,但我们不认为进化本身适合解决强化学习问题,所以说,本书没有涉及到他们。

 

1.5 一个拓展例子 Tic-Tac-Toe

  规则:最先达成一排的一方胜利。假设平局和输认为是输。假设与我们对战是不完美的棋手。(完美棋手最差结果是平局)

传统的最优方法无法解决这种问题,因为对手的不确定性。

  进化方法解决:找出所有的解题策略,然后进行试验,每种策略产生一个赢的概率,然后选择最优策略。

  值函数解决:给每个状态编一个值,代表这个状态下赢棋的概率。所有状态的值构成一张表,用作值函数。初始化表中的值,自己已经组成一排的value1,对方组成的状态的value0,其余value0.5.具体方法,大多数通过贪心算法,小部分通过随机,来选择下一步action,然后通过回退来修正value,使之趋向于后来的value

  这个例子阐释了进化算法和学习值函数方法的不同。进化算法只关心最后的结果,忽略了其中的过程,比较而言学习值函数方法能利用过程中的信息。

  这个例子揭示了强化学习的关键特点:一是在与环境交互时同时学习,二是有明确的目标,正确的行为需要计划和预见,同时也把延迟效应考虑在内。这是强化学习的一个十分显著的特点,因为它并没有使用环境模型也没有对可能的actionstate序列进行搜索。

  强化学习的应用不止于此,可以没有对手或者对手是大自然,也可以是持续性的问题,只不过会比较复杂。也可以应用于大规模数据。对于超大规模状态的问题来说强化学习系统的性能与系统能否高效地从过去的经验中归纳息息相关。

强化学习不需要环境模型。当构建环境模型是瓶颈时,无环境模型的方法会占较大优势。

1.6总结

  强化学习区别于其他计算方法的最鲜明特点是为了目标,在与环境的直接交互中学习,没有依靠解释者或者环境模型。强化学习是解决为了达成长期目标与环境交互问题的首选方法。

  强化学习用马尔科夫决策来形式化定义智能体与环境比如把rewardactionsstates。这种框架旨在用简单的方法来表征人工智能中最重要的特点。

1.7强化学习的早期历史

  早期强化学习有两条主线,在现代强化学习合并之前是被分开研究的。其一是通过试错学习,起源于动物的学习,这条主线贯穿于人工智能最早期。其二是利用值函数和动态规划的最佳控制和解决方法。对大部分而言并没有涉及到学习。第三条主线是时间差异方法。在20世纪80年代三条主线合并形成现代强化学习。

  第二条主线:在20世纪50年代中期Bellman和其他人提出了一种方法来解决最佳控制问题。这种方法利用了动态系统中状态和值函数的或者最佳返回函数的概念。这类解决最佳控制的方法被人们称为动态编程,bellman也把离散随机版本的最佳控制问题称为马尔科夫决策。Ronald Howard改进了MDPs的迭代方法。这些是现代人工智能的根基。

  动态规划被广泛认为是解决一般离散最优控制问题唯一可行的方式。但是他受繁杂度维度的限制。自50年代起动态规划被广泛的发展,包括扩展到部分可观察马氏决策(1991 lovejoy,许多应用,模糊方法,及异步方法。

  动态规划,最优控制和强化学习的联系:动态规划可以解决最优控制问题,最佳控制问题在一定范围内也被认为是强化学习问题。

第一条主线:试错学习。来源,图灵的应用及其他的应用。

  试错学习产生的影响是长期的。试错学习根据评定性的反馈来学习并不是依靠所谓的正确做法。

第三条主线:时间差异学习。它的特点是被时间上相邻发生的差异所驱动。它在强化学习中发挥了独特的和特别重要的作用。Sutton深入发展了Klopf的思想,特别是与动物学习理论的联系。描述了被时间上相邻预测的差异所驱动的学习规则。

  时间差异主线和最优控制主线最终在1989Chris Watkin Q-learning的发展中被整合。这项研究扩展和整合了三种方法。在此之前强化学习有了众多的发展。主要在机器学习,还有神经网络,人工智能。在1992年,Gerry Tesauro的军旗GD-Gammon,给这一领域带来了额外的关注。

  自从本书第一版出版以来,重点是强化学习算法和在神经系统中强化学习的关系的神经科学发展迅速。是因为专家学者指出,时分差异算法和多巴胺产生神经元的活动有着神秘的联系。

猜你喜欢

转载自blog.csdn.net/qq_34719975/article/details/79858125