Reinforcement Learning 增强学习

20180830
参考:https://www.nowcoder.com/courses/190

Reinforcement Learning(处理回归问题)

核心部分:包括了类似人、动物、机器人或者深度网络这样的自动代理

目标:通过最大化数值回报来学习如何在不确定的环境中驾驶。

模型把当前状态和行为作为输入,产生最大化的预期回报作为输出。
考虑从当前状态到最终状态之间的所有期望的回报。

Demo

Deep Atari:实际上是处理回归问题,而非分类问题,且无池化层(no pooling)。

Deep Q Net(DQN):使用当前状态和行为来预测最大回报值。

区别Supervised Learning

Supervised Learning 是基于历史样本来理解环境。但这并总是做事的最好方法。
Reinforcement Learning 完全关注于最好的回报。强调当前行为改变状态

Supervised Learning :尝试在堵车的环境下基于一个礼拜之前观察过的清晰路况驾驶,类似于通过后视镜驾驶。
Reinforcement Learning :为你的行为得到分数(在你的车道行驶,在速度限制下开车,在适当时候发出信号等),但也会因为追尾和超速等危险行为丢失分数。目标是在当前的交通环境下获得最高分数。

代理

增强学习的代理可以在探索和开发之间权衡,选择可以达到最大预期回报的路径

猜你喜欢

转载自blog.csdn.net/qq_21980099/article/details/82217012