清华大学人工智能研究院开源“天授”强化学习平台

深度强化学习（deep RL）近年来取得了令人瞩目的进步，在Atari游戏、围棋等领域战胜了人类。但是，在面对不确定环境、不完全信息的任务时仍然面临很大的挑战。如何求解非完全信息、不确定条件下的决策问题成为当前人工智能面临的重要挑战。清华大学人工智能研究院基础理论研究中心聚焦这一问题，开展了一系列理论和关键技术研究，自研了深度强化学习算法平台“天授”，日前向业界开源：

https://github.com/thu-ml/tianshou

“天授”源自《史记》，意为“取天所授而非学自人类”，刻画了强化学习通过与环境进行交互自主学习，而不需要像监督学习一样需要大量人类标注数据。清华大学团队针对目前多数既有强化学习平台（如 RLLib 和 BaseLine）等无法支持高效、定制化的训练场景的问题，继承了首版 TensorFlow“天授 0.1”版在模块化等方面的优势，推出了基于 PyTorch 框架的“天授 0.2”版本。

相比较目前的几种 PyTorch 强化学习平台，多数存在框架结构复杂、二次开发困难、对用户不友好等问题，在朱军、苏航等老师的指导下，由翁家翌牵头、张鸣昊和阎栋等参与下，在前期课题组阎栋、邹昊晟、任桐正等“天授 0.1”版本的基础上，开展“天授 0.2”版本的研制。

“天授”针对现有平台训练速度慢的缺点，在并行采样基础上提高数据收集能力，采用了 cache_buffer 配合 trainer 联动即可达到每秒 5000-6000fps 的速度；同时注重代码模块化设计，通过避免不必要的额外运算，将 reward normalization 等现有各类实现中被证明行之有效的各种改进吸纳进“天授 0.2”版本。通过 PyTorch 重写底层机制，“天授 0.2”主要特点包括：

1. 代码实现简洁：目前整个框架代码量约为 1500 行左右，但已经可以完整支持 PG，DQN，DDQN，A2C，DDPG，PPO，TD3，SAC 等主流强化学习算法；

2. 模块化：所有策略实现都被拆解成 4 个模块，只要完善了框架给定的接口就能在 100 行之内完整实现一个强化学习算法；

3. 可复现性：天授 0.2 利用 Github Actions 进行单元测试。每一次单元测试除了基本功能的测试之外，还包括针对所有算法的完整训练过程，也就是说一旦有一个算法没办法 train 出来结果，单元测试不能通过。据我们所知，得益于天授快速的训练机制，天授是目前唯一一个采用这种标准进行单元测试的强化学习框架；

4. 接口灵活：用户可以定制各种各样的 training 方法。提供示例，方便用户根据自己的需要进行二次开发；

5. 训练速度快：目前针对支持的测试场景，天授 0.2 比既有主流强化学习平台具有更好的性能，尤其在训练复杂度方面。如下图所示：

清华大学人工智能研究院基础理论研究中心在不完全信息决策方面近年来取得过诸多重要成果。早在 2017 年，首次参赛的该团队就在基于《毁灭战士》的 ViZDoom AI 比赛中获得了亚军，并于 2018 年获得该项目的冠军，这也是该赛事来自中国赛区的首个冠军。

与此同时，该团队在不完全信息决策的理论方面也取得了一系列重要成果，多篇工作发表在人工智能领域顶级国际会议 ICML、ICLR 上。其中将博弈论和多智能体结合的新算法被 ICLR 2020 接受为口头报告（接受率 <1.9%），被评审评价为将博弈论和强化学习之间建立了崭新的联系（novel connections between Game Theory and RL）。

论文标题：Posterior sampling for multi-agent reinforcement learning: solving extensive games with imperfect information

论文来源：ICLR 2020

论文链接：https://openreview.net/forum?id=Syg-ET4FPS&noteId=Syg-ET4FPS

关于未来的工作，团队负责人朱军教授表示，将在既有工作基础上，从三个维度拓展“天授”平台，从算法层面来讲，将对目前主流强化学习算法进行更加前面的支持，包括 model-based RL, imitation learning 等；从任务层面来讲，将进一步支持包括 Atari、VizDoom 等复杂任务；从性能上来讲，将进一步提升平台在模型性能、训练速度、鲁棒性等方面的核心指标，更好的为学术界服务。朱军教授强调，不完全信息决策是实验室未来布局的重点方向，也是清华大学在“鲁棒、安全、可拓展、可理解”的第三代人工智能研究方面的重要布局。

“天授”整体架构如下图所示：

据悉，清华大学人工智能研究院依托计算机科学与技术系，电子系、自动化系等院系共建，于 2018 年成立，围绕“一个核心，两个融合”的宗旨，服务国家和清华大学的人工智能战略。2019 年 5 月成立基础理论研究中心，由朱军教授担任主任。该中心着眼于目前人工智能发展的瓶颈问题，以建立人工智能的原创性基础理论为目标，通过和脑科学、认知科学和统计学等学科的大跨度学科交叉融合，发展鲁棒、可理解、数据高效和安全的人工智能。“天授”是继“珠算”可微分概率编程库（https://github.com/thu-ml/zhusuan）之后，该中心推出的又一个面向复杂决策任务的编程库。

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

PaperWeekly

发布了424 篇原创文章 · 获赞 575 · 访问量 93万+

私信关注

清华大学人工智能研究院开源“天授”强化学习平台

猜你喜欢