● 每周一言

别让梦想的附属品喧宾夺主。

导语

在小斗去年五月份写的 AlphaGo技术剖析：揭开围棋大脑的神秘面纱这篇介绍AlphaGo的文章中讲到，AlphaGo之所以能战胜人类顶尖的围棋手，主要是 增强策略网络 的功劳。而增强策略网络的核心技术，便是增强学习。那么，增强学习到底是什么？

增强学习（Reinforcement Learning），又名强化学习，和监督学习、无监督学习一样，也是机器学习的一个分支。

不过，和监督学习、无监督学习相比，增强学习不一定需要大量的训练数据，而更像是一种从零开始通过“左右互搏”的方式提高模型能力的一种学习方式。其主要有以下四个特点：

1. 没有标签数据、只有奖励信号；
2. 奖励信号不一定实时反馈，有时甚至延迟较大；
3. 时间序列是一个重要因素；
4. 当前行为影响后续行为。

下面讲讲增强学习的几个主要概念：

时间序列元素 每一个时刻t都包含三个元素：Ot、At、Rt。Ot表示对当前t时刻环境的观察；At表示对当前观测所做出的一个行为；Rt表示t-1时刻行为所带来的奖励，是一个标量，也是增强学习的优化目标。

个体和环境 在t时刻，个体对于环境有一个观察评估Ot，然后做出一个行为At，并从环境得到一个奖励信号Rt+1；而环境则在t时刻接收个体的动作At，更新环境信息，同时使个体得到下一时刻的观测Ot+1，并给个体一个奖励信号Rt+1。

历史和状态 历史是观测、行为、奖励的序列，状态是用于决定将来的已有信息，是关于历史的一个函数：St = f(Ht)。状态又分为个体状态、环境状态和信息状态。

个体一般由以下三个组成部分中的一个或多个组成：

策略函数 决定个体行为的方式，是状态到行为的映射。

价值函数 对未来奖励的一种预测，用于评价当前状态的好坏程度。

模型个体对环境的建模。模型一般需要解决两个问题：一是状态转化概率，即预测未来可能状态的发生概率；二是预测未来的即时奖励。

增强学习的学习过程可以比作成一种试错学习，个体一方面需要从与环境的交互中发现一个好策略，另一方面又不至于在试错过程中损失太多奖励。

增强学习广泛应用于直升机特技飞行、经典游戏、投资管理、发电站控制、让机器人模仿人类行走等方面。

以上便是增强学习的入门讲解，敬请期待下节内容。

感谢各位的耐心阅读，后续文章于每周日奉上，敬请期待。欢迎大家关注小斗公众号 对半独白！