Unity 机器学习 ML-Agents （一）官方介绍概念【必读】

孙广东 2018.5.20

Unity 官方github主页上ml-agents 文档，传送门是：（插件在正式发布后，文档肯定会放到 https://docs.unity3d.com/Manual/index.html 中）

中文： https://github.com/Unity-Technologies/ml-agents/tree/master/docs/localized/zh-CN

英文： https://github.com/Unity-Technologies/ml-agents/blob/master/docs/Readme.md

超多Demo案例： https://connect.unity.com/challenges/ml-agents-1

Unity中文官方社区发表过的相关文章：

官方描述： Unity Machine Learning Agents (ML-Agents) 是一款开源的 Unity 插件，使得我们得以在游戏环境和模拟环境中训练智能 agent。您可以使用 reinforcement learning（强化学习）、imitation learning（模仿学习）、neuroevolution（神经进化）或其他机器学习方法，通过简单易用的 Python API进行控制，对 Agent 进行训练。我们还提供最先进算法的实现方式（基于 TensorFlow），让游戏开发者和业余爱好者能够轻松地训练用于 2D、3D 和 VR/AR 游戏的智能 agent。这些经过训练的 agent 可用于多种目的，包括控制 NPC 行为（采用各种设置，例如多个 agent 和对抗）、对游戏内部版本进行自动化测试、以及评估不同游戏设计决策的预发布版本。ML-Agents 对于游戏开发者和 AI 研究人员双方都有利，因为它提供了一个集中的平台，使得我们得以在 Unity 的丰富环境中测试 AI 的最新进展，并使结果为更多的研究者和游戏开发者所用。

官方用多玩家战争主题游戏中的军医 AI介绍，很多概念。

凭借 ML-Agents，您可以使用各种方法来_训练_这类 NPC （称为 agent）的行为。基本理念很简单。我们需要在游戏（称为环境）的每个时刻定义三个实体：

观测 - 军医对环境的感知。观测可以是数字和/或视觉形式。数字观测会从 agent 的角度测量环境的属性。对于我们的军医来说，这将是军医可以看到的战场属性。根据游戏和 agent 的不同，数字观测的数据可以是_离散_的或_连续_的形式。对于大多数有趣的环境，agent 将需要若干连续的数字观测，而对于具有少量独特配置的简单环境，离散观测就足够了。另一方面，视觉观测是附加到 agent 的摄像头所生成的图像，代表着 agent 在该时间点看到的内容。我们通常会将 agent 的观测与环境（或游戏）的状态混淆。环境状态表示包含所有游戏角色的整个场景的相关信息。但是，agent 观测仅包含 agent 了解的信息，通常是环境状态的一个子集。例如，军医观测不能包括军医不知道的隐身敌人的信息。
动作 - 军医可采取的动作。与观测类似，根据环境和 agent 的复杂性，动作可以是连续的或离散的。就军医而言，如果环境是一个只是基于位置的简单网格世界，那么采用四个值（东、西、南、北）之一的离散动作就足够了。但是，如果环境更加复杂并且军医可以自由移动，那么使用两个连续动作（一个对应于方向，另一个对应于速度）更合适。
奖励信号 - 一个表示军医行为的标量值。请注意，不需要在每个时刻都提供奖励信号，只有在军医执行好的或坏的动作时才提供。例如，军医在死亡时会得到很大的负奖励，每当恢复受伤的队员时会得到适度的正奖励，而在受伤队员因缺乏救助而死亡时会得到适度的负奖励。请注意，奖励信号表示如何将任务的目标传达给 agent，所以采用的设置方式需要确保当获得的奖励达到最大值时，agent能够产生我们最期望的行为。

在 reinforcement learning（强化学习）技术中，所学习的行为称为 policy ，我们想学习的 policy 本质上是一个从每个可能的观测到该观测下最优动作的映射。请注意，通过运行模拟来学习 policy 的过程被称为训练阶段，而让 NPC 使用其学习到的 policy 玩游戏的过程被称为预测阶段。

ML-Agents 提供了所有必要工具，从而使我们得以利用 Unity 作为模拟引擎来学习 Unity 环境中不同对象的 policy。

主要组件

ML-Agents 是一个 Unity 插件，它包含三个高级组件：

学习环境 - 其中包含 Unity 场景和所有游戏角色。
Python API - 其中包含用于训练（学习某个行为或 policy）的所有机器学习算法。请注意，与学习环境不同，Python API 不是 Unity 的一部分，而是位于外部并通过 External Communicator 与 Unity 进行通信。
External Communicator - 它将 Unity 环境与 Python API 连接起来。它位于 Unity 环境中。

ML-Agents 的简化框图。

学习环境包含三个可帮助组织 Unity 场景的附加组件：

Agent - 它可以被附加到一个 Unity 游戏对象上（场景中的任何角色），负责生成它的观测结果、执行它接收的动作并适时分配奖励（正/负）。每个 Agent 只与一个 Brain 相关联。
Brain - 它封装了 Agent 的决策逻辑。实质上，Brain 中保存着每个 Agent 的 policy，决定了 Agent 在每种情况下应采取的动作。更具体地说，它是从 Agent 接收观测结果和奖励并返回动作的组件。
Academy - 它指挥 agent 的观测和决策过程。在 Academy 内，可以指定若干环境参数，例如渲染质量和环境运行速度参数。 External Communicator 位于 Academy 内。

每个学习环境都会有一个全局的 Academy ，与每一个游戏角色一一对应的多个 Agent。虽然每个 Agent 必须与一个 Brain 相连，但具有相似观测和动作的多个 Agent 可关联到同一个 Brain。在我们的示例游戏中，我们有两个各自拥有自己军医的军队。因此，在我们的学习环境中将有两个 Agent，每名军医对应一个 Agent，但这两个军医都可以关联到同一个 Brain。请注意，这两个军医与同一个 Brain 相连的原因是，他们的观测和动作_空间_ 是相似的。这并不意味着在每种情况下他们都会有相同的观测和动作_值_。换句话说， Brain 定义了所有可能的观测和动作的空间，而与之相连的 Agent（在本示例中是指军医）可以各自拥有自己独特的观测和动作值。如果我们将游戏扩展到包含坦克驾驶员 NPC，那么附加到这些角色的 Agent 不能与连接到军医的 Agent 共享一个 Brain（军医和驾驶员有不同的动作）。

示例游戏的 ML-Agents 的示例框图。

我们尚未讨论 ML-Agents 如何训练行为以及 Python API 和 External Communicator 的作用。在我们深入了解这些细节之前，让我们总结一下先前的组件。每个游戏角色上附有一个 Agent，而每个 Agent 都连接到一个 Brain。Brain 从 Agent 处接收观测结果和奖励并返回动作。Academy 除了能够控制环境参数之外，还可确保所有 Agent 和 Brain 都处于同步状态。那么，Brain 如何控制 Agent 的动作呢？

实际上，我们有四种不同类型的 Brain，它们可以实现广泛的训练和预测情形：

External - 使用 Python API 进行决策。这种情况下， Brain 收集的观测结果和奖励通过 External Communicator 转发给 Python API。Python API 随后返回 Agent 需要采取的相应动作。
Internal - 使用嵌入式 TensorFlow 模型进行决策。嵌入式 TensorFlow 模型包含了学到的 policy，Brain 直接使用此模型来确定每个 Agent 的动作。
Player - 使用键盘或控制器的实际输入进行决策。这种情况下，人类玩家负责控制 Agent，由 Brain 收集的观测结果和奖励不用于控制 Agent。
Heuristic - 使用写死的逻辑行为进行决策，目前市面上大多数游戏角色行为都是这么定义的。这种类型有助于调试具有写死逻辑行为的 Agent。也有助于把这种由写死逻辑指挥的 Agent 与训练好的 Agent 进行比较。在我们的示例中，一旦我们为军医训练了 Brain，我们便可以为一个军队的军医分配经过训练的 Brain，而为另一个军队的军医分配具有写死逻辑行为的 Heuristic Brain。然后，我们可以评估哪个军医的效率更高。

根据目前所述，External Communicator 和 Python API 似乎只能由 External Brain 所用。实际并非如此。我们可以配置 Internal、Player 和 Heuristic 类型的 Brain，使它们也能通过 External Communicator（一种称为 broadcasting 的功能）将观测结果、奖励和动作发送给 Python API。我们很快就会看到，这样可以实现其他的训练模式。

一个包含多个 Agent 和 Brain 的场景的可能配置示例。

训练模式

鉴于 ML-Agents 的灵活性，我们可以通过多种方式进行训练和预测。

内置的训练和预测

如前所述，ML-Agents 附带了多种用于训练智能 agent 的最先进算法的实现。在此模式下， Brain 类型在训练期间设置为 External，在预测期间设置为 Internal。更具体地说，在训练期间，场景中的所有军医通过 External Communicator 将他们的观测结果发送到 Python API （这是采用 External Brain 时的行为）。Python API 会处理这些观测结果并发回每个军医要采取的动作。在训练期间，这些动作大多是探索性的，旨在帮助 Python API 学习每位军医的最佳 policy。训练结束后，便可导出每个军医所学的 policy。由于我们所有的实现都基于 TensorFlow，因此所学的 policy 只是一个 TensorFlow 模型文件。然后在预测阶段，我们将 Brain 类型切换为 Internal，并加入从训练阶段生成的 TensorFlow 模型。现在，在预测阶段，军医仍然继续生成他们的观测结果，但不再将结果发送到 Python API，而是送入他们的嵌入了的 Tensorflow 模型，以便生成每个军医在每个时间点上要采取的_最佳_动作。

总结一下：我们的实现是基于 TensorFlow 的，因此，在训练期间，Python API 使用收到的观测结果来学习 TensorFlow 模型。然后在预测过程中该模型将嵌入到 Internal Brain 中，以便为连接到该 Brain 的所有 Agent 生成最佳动作。请注意，我们的 Internal Brain 目前是实验性的，因为它仅限于 TensorFlow 模型并会利用第三方 TensorFlowSharp 库。

3D Balance Ball 示例入门教程使用 3D Balance Ball 示例环境介绍了此训练模式。

自定义训练和预测

先前的模式中使用 External Brain 类型进行训练，从而生成 Internal Brain 类型可以理解和使用的 TensorFlow 模型。然而，ML-Agents 的任何用户都可以利用自己的算法进行训练和预测。在这种情况下，训练阶段和预测阶段的 Brain 类型都会设置为 External，并且场景中所有 Agent 的行为都将在 Python 中接受控制。

我们目前没有教程介绍这种模式，但您可以在这里了解有关 Python API 的更多信息。

Curriculum Learning（课程学习）

此模式是_内置训练和预测_的扩展，在训练复杂环境中的复杂行为时特别有用。Curriculum learning（课程学习）是一种训练机器学习模型的方式，这种训练方式会逐渐引入问题较难理解的方面，使该模型总是受到最佳挑战。这种思路已经存在了很长一段时间，这也是我们人类通常学习的方式。比如任何童年时期的初等教育，课程和主题都会进行排序。例如，先教算术，再教代数。同样，先教代数，再教微积分。前期课程中学到的技能和知识为后期的课程提供了基础。机器学习也是同样的道理，对较简单任务的训练可以为将来较难的任务提供基础。

$Example Math Curriculum$

数学课程的示例。从简单主题到复杂主题的课程进度安排，后一个课程基于前一个课程。

当我们考虑 reinforcement learning（强化学习）的实际原理时，学习信号是在整个训练过程中偶尔收到的奖励。训练 agent 完成此任务时的起点将是一个随机 policy。该起始 policy 将使 agent 随意转圈，这样的行为在复杂环境中可能永远不会获得奖励或极少获得奖励。因此，通过在训练开始时简化环境，我们可让 agent 将随机 policy 快速更新为更有意义的 policy，即，随着环境逐渐复杂化，policy 也会不断改进。在我们的示例中，我们可以考虑当每个队只包含一个玩家时，首先训练军医，然后再反复增加玩家人数（即环境复杂度）。ML-Agents 支持在 Academy 内设置自定义环境参数。因此，可以根据训练进度动态调整与难度或复杂性相关的环境要素（比如游戏对象）。

使用 Curriculum Learning（课程学习）进行训练教程使用 Wall Area 示例环境介绍了此训练模式。

Imitation Learning（模仿学习）

简单地展示我们希望 agent 执行的行为，而不是试图通过试错法来让它学习，这种方式通常会更直观。例如，这种模式不是通过设置奖励功能来训练军医，而是通过游戏控制器提供军医应该如何表现的示例。更具体地说，在这种模式下，训练期间的 Brain 类型设置为 Player，并且所有使用控制器执行的动作（不仅包括 agent 观测）都将被记录并发送到 Python API。imitation learning（模仿学习）算法随后将会使用这些来自人类玩家的观测结果以及他们对应的动作来学习 policy。

使用 Imitation Learning（模仿学习）进行训练教程使用 Banana Collector 示例环境介绍了此训练模式。

灵活的训练方案

虽然迄今为止的讨论都主要集中在使用 ML-Agents 对单个 agent 进行训练方面，但同时实现多种训练方案也是可能的。我们很高兴看到社区创建了许多新奇而有趣的环境。刚开始训练智能 agent 的新用户可以参考以下一些示例来获得灵感：

单 Agent。与单个 Brain 相连的单个 Agent，拥有自己的奖励信号。这是传统的 agent 训练方式。一个示例是任何单人游戏，比如 Chicken。视频链接。
同步单 Agent。与单个 Brain 相连的多个独立 Agent，具有独立奖励信号。传统训练方案的并行版本，这可以加速和稳定训练过程。当您在一个环境中拥有同一角色的多个版本而这些角色版本应该学习类似行为时，这很有用。一个可能的示例是训练十二个机械臂同时打开一扇门。视频链接。
对抗性自我模拟。与单个 Brain 相连的两个相互作用的 Agent，具有反向奖励信号。在双人游戏中，对抗性自我模拟可以让 agent 变得越来越熟练，同时始终拥有完美匹配的对手：自身。这是训练 AlphaGo 时采用的策略，最近被 OpenAI 用于训练一种人类对战的 1 比 1 Dota 2 agent。
协作性多 Agent。与单个或多个不同 Brain 相连的多个相互作用的 Agent，具有共享的奖励信号。在此方案中，所有 agent 必须共同完成一项不能单独完成的任务。示例包括这样的环境：每个 agent 只能访问部分信息，并且需要共享这些信息才能完成任务或协作解决难题。
竞争性多 Agent。与单个或多个不同 Brain 相连的多个相互作用的 Agent，具有反向奖励信号。在此方案中，agent 必须相互竞争才能赢得比赛，或获得一些有限的资源。所有的团队运动都属于这种情况。
生态系统。与单个或多个不同 Brain 相连的多个相互作用的 Agent，具有独立奖励信号。这种方案可以看成是创造一个小世界，在这个小世界中，拥有不同目标的动物都可以相互影响，比如可能有斑马、大象和长颈鹿的稀树草原，或者城市环境中的自动驾驶模拟。

其他功能

除了提供灵活的训练方案外，ML-Agents 还包含其他功能，可用于提高训练过程的灵活性和解释能力。

按需决策 - 使用 ML-Agents 可以让 agent 仅在需要时才请求决策，而不是在环境的每一步都请求决策。这种方案可用于训练基于回合的游戏、 agent 必须对事件作出反应的游戏，或 agent 可以采取持续时间不同的动作的游戏。在每一步决策与按需决策之间切换只需点击一下按钮即可实现。您可以在此处了解更多关于按需决策功能的信息。
记忆增强 Agent - 在某些情况下， agent 必须学会记住过去才能做出最好的决策。当 agent 只能部分观测环境时，跟踪过去的观测结果可以帮助 agent 学习。我们在教练中提供了一种_长短期记忆_ (LSTM) 的实现，使 agent 能够存储要在未来步骤中使用的记忆。您可以在此处了解有关在训练中启用 LSTM 的更多信息。
监控 Agent 的决策过程 - 由于 ML-Agents 中的通信是双向通道通信，因此我们在 Unity 中提供了一个 agent Monitor 类，这个类可以显示经过训练的 agent 的各个方面，例如 agent 对自己在 Unity 环境中的表现（称为价值估算）的感知。通过利用作为可视化工具的 Unity 并实时提供这些输出，研究人员和开发人员可以更轻松地调试 agent 的行为。您可以在此处了解更多关于使用 Monitor 类的信息。
复杂的视觉观测 - 在其他平台中，agent 的观测可能仅限于单个向量或图像，与之不同的是，ML-Agents 允许每个 agent 使用多个摄像机进行观测。因此，agent 可以学习整合来自多个视觉流的信息。这在多种情况下都会很有用，例如训练需要多个摄像头且摄像头具有不同视角的自动驾驶车辆，或可能需要整合空中视觉和第一人称视觉的导航 agent。您可以在此处了解更多关于向 agent 添加视觉观测的信息。
Broadcasting - 如前所述，默认情况下，External Brain 会将其所有 Agent 的观测结果发送到 Python API。这对训练或预测很有帮助。Broadcasting 是一种可以为其他三种模式（Player、Internal、Heuristic）启用的功能，这种情况下的 Agent 观测和动作也会发送到 Python API （尽管 Agent 不受 Python API 控制）。Imitation Learning（模仿学习）会利用这一功能，此情况下会使用 Player Brain 的观测和动作来通过示范的方式学习 agent 的 policy。不过，这对 Heuristic 和 Internal Brain 也有帮助，特别是在调试 agent 行为时。您可以在此处了解更多关于使用 broadcasting 功能的信息。
Docker 设置（测试功能） - 为了便于在不直接安装 Python 或 TensorFlow 的情况下设置 ML-Agents，我们提供了关于如何创建和运行 Docker 容器的指南。由于渲染视觉观测的限制，该功能被标记为测试功能。
AWS 上的云训练 - 为了便于在 Amazon Web Services (AWS) 机器上使用 ML-Agents，我们提供了一份指南让您了解如何设置 EC2 实例以及公共的预配置 Amazon Machine Image (AMI)。

注意因为插件的正式版没有到来，所有什么都有可能改变，所以还是关注官方的英文文档。了解最近内容。