强化学习简介
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。
它主要包含四个元素,agent,环境状态,行动,奖励, 强化学习的目标就是获得最多的累计奖励。其中的agent可以理解为学习的主体,它一般是咱们设计的强化学习模型,这个模型在开始的状态试图采取某些行动去操纵环境,它的行动从一个状态到另一个状态完成一次初始的试探,环境会给予一定的奖励,这个模型根据奖励的反馈作出下一次行动(这个行动就是当前这个模型根据反馈学来的),经过不断的行动、反馈、再行动,进而学到环境状态的特征规律。
强化学习的算法简介
(1)通过价值选行为:
Q learning,Sarsa,Deep Q Network
(2)直接选行为:
Policy Gradients
(3)想象环境,并从中学习:
Model based RL
强化学习方法汇总--强化学习算法分类
分类一:
(1)不理解环境(Model-Free RL)
代表方法--Q learning,Sarsa,Policy Gradients
例如机器人在现实世界的探索只能按部就班一步一步等待现实世界的反馈,决定下一次的行动
(2)理解环境(Model-Based RL)
为现实世界建模,Model-Based比Model-Free多出了一个虚拟环境,它采用的方式依然是Model-Free RL中的方法Q learning,Sarsa,Policy Gradients,它的优势就是可以通过想象预判接下来要发生的所有情况,然后根据所有情况中最好的一种进行采取下一步的策略,例如AlphaGo
分类二:
(1)基于概率(Policy-Based RL)
是强化学习最直接的一种,它能通过 感官分析所处的环境,直接输出下一步所采取的行动的概率,然后根据概率采取行动,所以每种行动都有可能被选中,只是可能性不同。
代表方法--Policy Gradients...
(2)基于价值(Value-Based RL)
它输出所有动作的价值,然后根据最高价值来选择动作
代表方法--Q learning,Sarsa...
相比Policy-Based RL的方法,Value-Based RL更为坚定,毫不留情,就选价值最高的,而对Policy-Based RL来说即使概率最高也不一定被选择到。
对于连续的动作基于价值的方法是无能为力的。对于连续的动作确定其分布就能选择特定动作,这也是基于概率方法的优点之一。
(3) Actor-Critic--结合Policy-Based RL与Value-Based RL的优点
Policy Gradients...----(Actor)基于概率作出动作
Q learning,Sarsa...----(Critic)给出动作的价值
结合 基于概率(Policy-Based RL)--Policy Gradients...与基于价值(Value-Based RL)--Q learning,Sarsa...创造出更有利的方法Actor-Critic
(Actor)基于概率做出动作,(Critic)对于做出的动作给出动作的价值,这样在原有的基础上加速了学习过程。
分类三:
(1)回合更新(Monte-Carlo update)
每回合等待游戏结束再更新
代表方法--基础版Policy Gradients,Monte-Carlo Learning...
(2)单步更新(Temporal-Difference update)
每回合中的每一步都进行更新,这样就可以边玩边学习
代表方法--Q Learning,Sarsa,升级版Policy Gradients...
分类四:
(1)在线学习(On-Policy)
必须本人在场,并且一定是本人边玩边学习
代表方法--Sarsa,Sarsa(λ)
(2)离线学习(off-Policy)
可以选择自己玩也可以选择看着别人玩,通过看着别人玩来学习别人的行为准则,它同样是从过往经验中学习,但是这些过往的经历没有必要自己经历,任何人的经历都能被学习,或者也不必要边玩边学习,可以白天先储存下来玩耍时的记忆,等到晚上再通过离线学习来学习白天的记忆。
代表方法--Q Learning,Deep Q Network