机器学习方法篇(23)------增强学习入门

● 每周一言

别让梦想的附属品喧宾夺主。

导语

在小斗去年五月份写的 AlphaGo技术剖析:揭开围棋大脑的神秘面纱 这篇介绍AlphaGo的文章中讲到,AlphaGo之所以能战胜人类顶尖的围棋手,主要是 增强策略网络 的功劳。而增强策略网络的核心技术,便是增强学习。那么,增强学习到底是什么?

增强学习

增强学习(Reinforcement Learning),又名强化学习,和监督学习、无监督学习一样,也是机器学习的一个分支。

fig1

不过,和监督学习、无监督学习相比,增强学习不一定需要大量的训练数据,而更像是一种从零开始通过“左右互搏”的方式提高模型能力的一种学习方式。其主要有以下四个特点:

1. 没有标签数据、只有奖励信号;
2. 奖励信号不一定实时反馈,有时甚至延迟较大;
3. 时间序列是一个重要因素;
4. 当前行为影响后续行为。

fig2

下面讲讲增强学习的几个主要概念:

时间序列元素 每一个时刻t都包含三个元素:Ot、At、Rt。Ot表示对当前t时刻环境的观察;At表示对当前观测所做出的一个行为;Rt表示t-1时刻行为所带来的奖励,是一个标量,也是增强学习的优化目标。

个体和环境 在t时刻,个体对于环境有一个观察评估Ot,然后做出一个行为At,并从环境得到一个奖励信号Rt+1;而环境则在t时刻接收个体的动作At,更新环境信息,同时使个体得到下一时刻的观测Ot+1,并给个体一个奖励信号Rt+1。

历史和状态 历史是观测、行为、奖励的序列,状态是用于决定将来的已有信息,是关于历史的一个函数:St = f(Ht)。状态又分为个体状态、环境状态和信息状态。

fig3

个体一般由以下三个组成部分中的一个或多个组成:

策略函数 决定个体行为的方式,是状态到行为的映射。

价值函数 对未来奖励的一种预测,用于评价当前状态的好坏程度。

模型 个体对环境的建模。模型一般需要解决两个问题:一是状态转化概率,即预测未来可能状态的发生概率;二是预测未来的即时奖励。

fig4

增强学习的学习过程可以比作成一种试错学习,个体一方面需要从与环境的交互中发现一个好策略,另一方面又不至于在试错过程中损失太多奖励。

增强学习广泛应用于直升机特技飞行、经典游戏、投资管理、发电站控制、让机器人模仿人类行走等方面。

以上便是增强学习的入门讲解,敬请期待下节内容。

结语

感谢各位的耐心阅读,后续文章于每周日奉上,敬请期待。欢迎大家关注小斗公众号 对半独白

face

猜你喜欢

转载自blog.csdn.net/cherrylvlei/article/details/79437435