对RL(reinforcement learning)--强化学习的认识

概念

RL(Reinforcement Learning)–强化学习是指agent(智能体),通过使未来得到的奖励最大化,来学习在不确定的环境中所要进行的动作。

特点

强化学习不同于其他机器学范式的区别在于以下几点:
1、There is no supervisor,only a reward signal(在RL中没有监督者,只有一个奖励信号)
2、Feedback is delayed,not instantaneous(反馈被延迟了,智能体并不会立即得到反馈,过一段时间才会知道当时的选择所带来的结果是好是坏)
3、Times really matters.(sequential) 时间上会影响决策结果,因为每一个行为都会影响下一个行为,智能体最终会选择使奖励值最大的一系列行为,往往应用在序列化动作场景中。
4、Agents’s action affect the subsequent data it receives(智能体的行动会影响到随后的数据接收),因为选取的行为不一样,得到的奖励也就不一样,会导致后来接收的收据不一样。

分类

RL按照分类标准的不同:可以分为
1、Model-Free RL(无模型强化学习)和Model-Based RL(基于模型的强化学习)

2、基于概率的深度学习(Policy-Based RL)和基于价值的深度学习(Valued-Based RL)
基于概率的深度学习算法:policy gradient、trust region、evolution
基于价值的深度学习算法:TD-learning、Q-learning、SARSA
AC(Actor-Critic)算法:结合了policy-based和value-based方法的优点。

3、基于回合更新(Monte-Carlo update)和基于单步更新(Temporal-Difference update)的深度学习算法

4、在线学习(On-Policy)和(Off-Policy)的RL算法
在线学习(On-Policy)的RL算法有:Sarsa,Sarsa(λ)
离线学习(Off-Policy)的RL算法有:Q Learning Deep Q Network

猜你喜欢

转载自blog.csdn.net/weixin_45187794/article/details/108248141