强化学习概述(An Overview of Reinforcement Learning)

一、强化学习的特点

  • 强化学习(RL)和规划(Planning)的不同

总结一下,强化学习和规划哪里不同?

  1. 强化学习看到的世界一个黑箱子,而对于规划而言,这个世界却是很清楚的。比如我们的最短路径,所有的节点、便点、权重点都是已知的;而对于强化学习,状态如何转移、边的权制是多少、甚至有哪些状态都需要自己探索、发现。

  2. 规划的问题可能就是一个解、一个路径;而强化学习的解是一个模型。和监督学习一样,只要输入任意一个状态,强化学习都会告诉你应该做什么决策。因此,除了给出最优路径上的每一个状态、每一个节点应该往哪边走以外,实际上任何一个节点都能告诉我从这个节点到目标去应该怎么走。

  • 强化学习(RL)和监督学习(SL)的不同

刚才说到强化学习和监督学习有很多相似的地方,比如说模型实际上是一样的。那它们之间有何差异呢?

  • 监督学习总的来说是一个开环的学习。

  1. 通常,监督学习任务会从环境中收集一批数据;

  2. 接着我们用监督学习算法从数据中产生模型;

  3. 最后就可以用这个模型来做预测了。

  • 但是对于强化学习来说,它面对的是一个闭环的学习。

  1. 首先,也是从环境中产生数据;

  2. 用强化学习的算法从数据中产生模型;

  3. 还要把模型放回到环境中运行,接着又会产生新的数据出来,再重复以上步骤。

南京大学俞扬博士万字演讲全文:强化学习前沿(上)

因此从大体上看,两者的主要区别,一个是开环学习,一个是闭环学习。这点不一样就带来了很多具体区别:

首先,在监督学习里,数据是分成观测的特征值和一个标记。这个标记的含义是,看到这样一个观测的值、特征以后,应该做出什么样的预测。

但是在强化学习里面,这个数据首先是一个序列,做了一个动作以后下面又到了什么状态,有一个反馈值,并且有了新的状态。这个序列里面虽然有反馈奖赏,但这个奖赏并不能告诉我们应该做什么样的动作,而只是对现在的策略有一个评估值,我们把所有奖赏加起来作为当前策略的一个评估(Evaluation),可以得知策略做的有多好,但并不知道应该做什么样的动作是最好的(即难以求得最优解),这个也是数据上的两个差别。

另外,强化学习的算法和监督学习的算法也是不一样的。两者的模型可能是一样的。监督学习里面可以是一个决策树,也可以是一个神经网络,也可以是一个模型,在强化学习里也是一样。

总结起来,两者最核心的区别,在于强化学习需考虑自身对环境的影响。

猜你喜欢

转载自blog.csdn.net/linyijiong/article/details/81486878