强化学习本质

在与环境交互中进行策略的学习。
在这里插入图片描述

强化学习概念

在这里插入图片描述

智能主体（agent） 按照某种策略（policy），根据当前的状态（state）选择合适的动 作（action）。智能主体通过动作施加影响环境（environment）。
智能主体（agent）：系统中动作的发出者。
状态（state）：智能主体对环境的一种解释。
动 作（action）：反映了智能主体对环境主观能动的影响，动作带来的收益称为奖励（reward）。强化学习的目的就是获得尽量高的奖励。
在这里插入图片描述
策略（policy）：根据观测到的状态做出决策，控制agent运动。

智能主体可能知道也可能不知道环境变化的规律。
系统中智能主体以外的部分向智能主体反馈状态和奖励按照一定的规律发生变化。

一个栗子：

第二个栗子

强化学习的随机性来源

随机性来源：①动作action：给予一个state，动作根据policy函数π随机抽样；②状态转移state translation：下一个状态由状态和状态转移函数随机抽样。

强化学习的特点（对比）

对比有监督学习、无监督学习和强化学习：

监督学习：有“标签”，可监督算法不断调整模型，得到输入与输出的映射函数。基于监督学习，一次性给定。单步决策。目标是样本映射到语义标签。
非监督学习：无“标签”，通过分析数据本身进行建模，发掘底层信息和隐藏结构。基于对数据结构的假设，一次性给定。无决策。同类数据分布模式。
在线学习：无“标签”，基于评估（evaluative），接受新数据，更新参数。数据在交互（interactive）中产生。序列（sequential）决策过程。目标获取最大收益的映射。

在这里插入图片描述
对比强化学习和监督学习：
（1）训练数据中没有标签，只有奖励函数（Reward Function）。
（2）训练数据不是现成给定，而是由行为（Action）获得。
（3）现在的行为（Action）不仅影响后续训练数据的获得，也影响奖励函数（Reward Function）的取值。
（4）训练的目的是构建一个“状态->行为”的函数，其中状态（ State）描述了目前内部和外部的环境，在此情况下，要使一个智能体（Agent）在某个特定的状态下，通过这个函数，决定此时应该采取的行为。希望采取这些行为后，最终获得最大奖励函数值。