【深度强化学习】基本介绍与基础概念

1. 什么是强化学习?

在众多学科领域中都存在一个研究“决策”的分支。比如在计算机科学领域中的机器学习,在工程领域中的最优控制,神经科学领域中的反馈系统等,他们的交集就是 Reinforcement Learning

强化学习的本质是科学决策


2. 强化学习的特点

  • 在强化学习中并没有监督数据,只能通过 reward 信号去优化
  • reward 不一定是实时的,有可能延后,甚至延后很多
  • 时间对强化学习非常重要(因为数据是具有时间序列性质的,并不是独立同分布的)
  • agent 的行为会对接下来一系列的数据产生影响

3. 强化学习的基本问题

3.1 Reward

在强化学习中,reward 是一个标量,能够衡量在 t 阶段 agent 的表现情况。

比如在LOL中击杀小兵有一定的金币奖励,击杀敌方英雄也有一定的金币奖励,agent 可以使用金币购买更加厉害的装备去强化自己,这些金币奖励就是 reward。

强化学习主要基于这样的”reward hypothesis”:所有问题解决的目标都可以被描述成最大化累积奖励。

3.2 Sequential Decision Making

既然要最大化累计奖励,那么 强化学习中的决策目标就是选择最佳的 action 使得未来总的 reward最大化。

这并不简单,因为很多时候 action 的 reward 是延迟的(不具有时效性),同时,action 可能是一个长期的序列,因此只考虑短期回报有可能错过更优的长期回报,换句话说,要目光长远。

3.3 Agent and Environment

强化学习具有两种视角:Agent 与 Environment。

对于 Agent 来说:在每一步,agent 都会得到自己观察的东西(Obseration),通过决策做出一个行为(Action),接收到 Environment 给与的反馈(Reward)。

对于 Environment 来说:在每一步,Environment 都会接收到 agent 的行为(Action),然后根据行为对环境进行更新(Observation),同时给 agent 一个反馈(Reward)。

3.4 History and State

 所谓 History 就是 observations、actions 和 rewards 的序列。“下一步将要发生什么”依赖于“上一步发生了什么”,具有时间依赖性,前后关联。

State 是所有决定将来的已有的信息,是一个关于 History 的函数:S = f(H)。

 3.4.1 Environment State

Environment State 是环境的私有呈现,包括环境用来选择下一个观测 / 奖励的所有数据。

通常 agent 并不能完全观察 Environment State,也就是个体有时候并不知道环境状态的所有细节。即使有时候环境状态对个体可以是完全可见的,这些信息也可能包含着一些无关信息。

比如要训练无人机飞行表演,对于无人机(agent)来说,它在某时刻的经纬度是无法观察到的,即便给无人机装上GPS能够得到准确经纬度,但这对飞行训练也是毫无帮助(无关信息)。

3.4.2 Agent State

Agent State 是个体的内部呈现,包括个体可以使用的、选择未来动作的所有信息。个体状态是强化学习算法可以利用的信息。

3.4.3 Information State

Information State 又称 Markov State,它包含了 History 中的有用的信息。

它具有 Markov 性质:如果信息的当前 state t 是可知的,那么所有 history 都可以丢掉,仅需要 t 时刻的信息就可以了

 显然,前面介绍的 History 和 Environment State 都是 Information State,

 3.4.4 Fully Observable Environments

在完全可观测环境中,agent 能够直接观测出 environment state。

个体对环境的观测 = Agent State = Environment state

这种问题是一个 可尔科夫决策过程(Markov Decision Process, MDP)

 3.4.5 Partially Observable Environments

 在部分可观测的环境中,agent 无法直接观测到全部的 environment。

Agent State ≠ Environment State

例如:一个可拍照的机器人个体对于其周围环境的观测并不能说明其绝度位置,它必须自己去估计自己的绝对位置,而绝对位置则是非常重要的环境状态特征之一;

这种问题是一个部分可观测马尔科夫决策过程(Partially Observable Markov Decision Process)。个体必须构建它自己的状态呈现形式.


4. 强化学习的主要部分

 主要有三个部分:Policy,Value Function 和 Model。(下图笔误)

 4.1 Policy

Policy 是决定 agent 行为的机制。它是从 state 到 action 的一个映射,可以是确定性的,也可以是不确定性的。

比如,可以按照概率值去选取 action,也可以直接执行最大概率值的 action。

 4.2 Value Function

Value Function 是一个未来 reward 的预测,用来评价当前 state 的好坏程度。

当面对两个不同的 state 时,agent 可以用 value 来评估这两个状态可能获得的最终 reward 区别,继而指导选择不同的行为,即制定不同的策略。

同时,Value Function 是基于某一个特定的 Policy ,不同的 policy 下同一 state 的 value 并不相同。

 4.3 Model

Model 是 agent 对 environment 的一个建模,它体现了个体是如何思考环境运行机制的,agent 希望 model 能模拟 environment 与 agent 的交互机制。

模型至少要解决两个问题:

  1. 状态转化概率,即预测下一个可能状态发生的概率;
  2. 预测可能获得的即时奖励。


5. 强化学习的分类


 参考:David Silver强化学习公开课

Guess you like

Origin blog.csdn.net/weixin_41960890/article/details/118725904