强化学习样本利用率研究(一)

从本篇文章开始,我们将详细介绍和研究强化学习及其样本利用率问题。

传统人工智能领域可分为三大学派:以逻辑推断和贝叶斯学习为代表的符号主义学派、以神经网络为代表的联结主义学派、以控制论和强化学习为代表的行为主义学派。随着20世纪50年代人工智能(AI)的概念被正式提出后,符号主义的数理逻辑以及贝叶斯等经典机器学习算法理论一直一枝独秀,引领AI领域的发展,并成为20世纪在AI占统治地位的主流学派;神经网络的发展一波三折,20世纪60年代的类脑研究和80年代的反向传播算法的提出使得神经网络出现过短时间的热潮,但受到理论和应用局限,直到21世纪初深度学习理论的提出,结合GPU并行计算与大数据,使得神经网络飞速发展。而强化学习作为“闭环学习”的典范,强调与环境的交互中获取反映真实目标达成度的反馈信号,强调模型的试错学习和序列决策行为的动态和长期效应。

1. 机器学习可广义分为监督学习、无监督学习和强化学习,差异性在于:

监督学习:找出能够最好地描述数据背后输入-输出之间关系的模型,因此模型的正确答案需要算法使用者在数据中直接给定;

无监督学习:无需直接给出正确答案,学习目标由所使用的算法的设计及其参数设置隐式地反映出来;

强化学习比起以上两者具有更强的自动性通用性;强化学习的核心在于智能体和环境之间的交互,智能体是对学习算法和使用学习算法的主体的抽象,而环境是对所有会与智能体进行交互的要素的抽象概况,智能体与环境之间的分界线取决于强化学习算法所处于的问题层次

2. 强化学习交互过程:

每一个时刻t,智能体从环境接收到当前状态St与回报信息Rt,并做出动作At,环境接受到At后,根据其状态转移函数P和及时回报函数R得到下一时刻的状态S_{t+1}和即时回报R_{t+1 };具体地,在当前时刻状态S_{t}=s,动作为A_{t}=a时,新状态S_{t+1}=S'的概率为P(s’|s,a),相应的回报值为R(s,a,s’),智能体接收到这些信息后再做出下一个动作A_{t+1},如此循环。

一个马尔科夫决策过程MDP由可能的状态集合S、动作集合A、状态转移函数P和即时回报函数R组成一个四元组M=(S,A,P,R);给定一个MDP,强化学习的任务是找到一个策略(确定性或非确定性),能够获得最大的期望累计回报,为了使回报有界,通常引入一个衰减因子(Discount Favtor) γ∈(0,1)或决策深度(Horizon) T>0,此时学习目标可以表示为找到最优控制策略π^{*}\pi ^{*}=argmax_{\pi}V_{t}^{\pi}

3. 样本利用率与强化学习

(1)   样本利用率是什么?

算法在一个问题上达到指定学习效果所需样本的大小,或在指定的样本大小下最终学习效果的好坏,为该算法在该问题上的样本效率(Sample efficient)

(2)   样本利用率与强化学习

改善算法样本效率对拓展强化学习的实际应用范围有着重大的意义;提升强化学习算法的样本利用效率,降低其对于数据量的高度依赖性是未来强化学习能否推广到实际应用场景的关键所在。

强化学习的探索策略负责决定如何与环境交互来收集数据,因此一个算法所使用的探索策略的好坏直接影响了算法最终的样本效率;基于此,很多研究者希望提出具有更高样本效率的探索策略,这些探索策略根据不同的设计思路可分为随机探索策略系统性探索策略两类。

随机探索策略:在agent选择动作时故意加入随机性,例如ꜫ-greedy,以1-ꜫ选择当前估值最高动作,以ꜫ概率从可能动作中按照均匀分布随机选择。Boltzmann selection探索策略也是按照一定概率分布选择动作,当前估计价值越高的动作被选中的机会越多。

系统性探索策略:尝试评估当前信息匮乏程度以及这种匮乏导致的价值估计的不确定性大小,综合考虑当前估计价值与不确定性来进行选择。一些系统性探索策略遵循“乐观策略”,即在对价值进行估计时,如果当前相关数据较少而信息不足,那就故意将此价值高估,让智能体相信相应决策会带来良好效果,促使它去选择这些具有较高不确定性的动作,随着数据量增加,信息变得充分,这种高估程度也就逐渐降低。当算法最终认定一个动作不具有高度价值而决定不再选择该动作时,由于已经有了足够多的数据,算法因错误判断价值而失去找出更好策略机会的可能性较小,这就保证了算法在最坏情况下也具有较好的样本效率。例如R-MAX、MBIE、UCRL。

两种策略的设计各有道理,无法直接判断优劣,因此很多研究者致力于通过对探索策略的样本效率进行理论分析,找出优缺点及改善手段。PAC(Probably Approximately Correct,高度近似正确)学习理论是比较成熟的样本效率分析理论体系,PAC理论又称PAC-MDP理论,主要分析在一个无限长的学习过程中学习算法选择非最优动作的次数,称为该算法的样本复杂度。如果一个算法的样本复杂度有上界,那就说明该算法无论面对如何困难的学习问题,都能在无限长的学习过程中只犯有限次的“失误”,从而间接说明算法的样本效率较高。除PAC外,还要Regret分析、KWIK分析、平均损失分析等,从不同指标分析了一些系统性探索策略的样本效率,指出了它们的有效性。

现有的样本效率理论主要问题在于过于侧重最坏情况的分析,但在强化学习中输入问题是学习环境,现实世界中的环境受制于各种物理规律、人为偏好等,几乎不会出现哪些已有分析中特意构造出的最难问题的情况,因此最坏情况分析结果对于强化学习算法性能不具有太大的代表性,这就导致经常出现不同算法之间理论样本效率的优劣关系与其实际效率优劣关系存在矛盾的情况。

因为存在这种现象,算法使用者无法通过已有样本效率理论找出最适用于其实际问题的探索策略与学习算法,也无法根据这些理论来进行对探索策略的相关策略设置。而算法设计者无法通过这些理论分析找出算法的性能瓶颈,也就无法更有效地改善算法。所以有必要对现有分析方法进行改变,使其能更针对具体问题实例,反映问题难度,并让分析结果根据准确和精确。

下一节我们将详细介绍强化学习的相关算法、探索策略以及强化学习样本利用率研究现状。

参考文献:

[1]张良鹏. 强化学习样本效率理论研究[D].中国科学技术大学,2018.

[2]Sutton, R. S., & Barto, A. G. (2011). Reinforcement learning: An introduction.

Guess you like

Origin blog.csdn.net/Fox_Alex/article/details/103949898