上榜ICML2022，网易伏羲研究成果助力优化游戏AI训练流程

近日，中国计算机学会（CCF）推荐的A类国际学术会议ICML 2022公布论文评审结果。网易伏羲投稿的论文《基于个体奖励协助的多智能体强化学习（Individual Reward Assisted Multi-Agent Reinforcement Learning）》顺利入选，意味着网易伏羲的AI研究成果得到了业界的广泛认可。

论文《基于个体奖励协助的多智能体强化学习》提出了一种融合个体奖励与团队奖励来进行策略优化的新型范式——基于个体奖励协助的团队策略学习算法（Individual Reward Assisted Team Policy Learning，IRAT）。IRAT算法可以通过更加合理地利用个体奖励，有效解决诸多应用场景下稀疏奖励、奖励调整繁琐等问题，从而达到优化训练流程、降本增效的效果。 该论文由网易伏羲与清华大学张崇洁老师团队、南京大学高阳老师团队、天津大学郝建业老师团队合作完成。

据悉，该项研究来源于业务普遍痛点。在相当多的应用场景中，多智能体强化学习都面临着团队奖励稀疏的问题。例如，在足球、篮球、MOBA等团队竞技的游戏中，往往只有最终的游戏输赢能够定义为团队奖励（Team Reward）。比较普遍的解决方法是根据任务相关的先验知识，为每个智能体设计一套与团队合作具有一定相关性的个体奖励（Individual Reward），鼓励智能体做出有利于团队合作的行为。例如在篮球游戏中，可以对“盖帽”“挡拆”“抢断”等行为加以鼓励，也可以对“传球出界”“被封盖”“被抢断”“带球过多”等事件加以惩罚。然而，现有工作对于个体奖励的利用大都局限于简单粗暴的线性加权方法。这不仅带来了繁重的权重调参工作，有时候甚至还会对团队合作起到反作用。以MOBA游戏为例，假设某个英雄由于自身失误而被对方击杀，那么即便团队其他的英雄在该时刻做出了正确的决策，线性加权法也会让他们一起承担相应的惩罚，这显然是不合理的。

在网易内部的游戏应用场景中也存在同样的问题。以逆水寒6v6对战场景（图1）的机器人训练为例，由于任务十分复杂，游戏AI工程师会根据不同职业的技能特点去定制对应的奖励加权方法：对于奶妈类职业，其奖励权重更偏向于对队友的治疗；对于坦克类职业，其奖励权重会更多地分配给防守以及回血；对于输出高、防御低的职业，奖励权重设置则需要兼顾伤害输出、掉血和死亡等。另外，对于不同的职业阵容组合，相应的奖励权重设置也应当有所差异。然而，逆水寒目前一共有9种职业，单考虑非重复的职业选择，6v6场景的阵容组合就有84种。即便是只为每个职业设置一套奖励权重，也需要在实际训练的过程中反复调参直到取得满意的效果，而这一过程的持续时间通常以周甚至月为单位。因此，通过人工去设置并调节每种组合、每个职业的奖励权重不具备现实可行性。

图1.png

图1 逆水寒6v6对战场景

为了避免繁琐的奖励调整工作、缩短模型的训练迭代周期，论文提出了IRAT算法这种更加合理地利用个体奖励的新方法。IRAT算法是基于集中式训练分布式执行（Centralized Training and Decentralized Execution）学习范型的多智能体策略梯度算法，其核心思想是为每个智能体分别维护个体策略（Individual Policy）和团队策略（Team Policy），利用个体策略进行探索和采样，并基于这些样本优化团队策略；同时，又通过约束两个策略之间的差异来引导个体策略朝着增大团队收益的方向进行探索，保证它们的优化方向一致且互不干扰。图2直观地展示了IRAT算法的思想。如图所示，单纯基于团队奖励进行策略优化可以保证策略最优性，但由于团队奖励过于稀疏性，这一优化过程将会比较漫长（红色箭头线）；如果基于稠密的个体奖励进行策略优化（黄色箭头线），学习算法可能会很快收敛，但学习到策略通常是次优的；而IRAT算法（蓝色箭头线）则是在学习初期利用个体奖励进行有效探索，让目标策略快速移动到最优团队策略（六边形）附近，并在学习后期基于团队奖励信号避免策略被个体奖励带入局部最优。

图2-png的副本.png

图2 IRAT算法示意图

为确认IRAT算法的有效性，网易伏羲在多智能体粒子环境MPE、斯坦福智能系统实验室SISL环境等多个benchmark上进行了验证，部分结果如图3所示。

扫描二维码关注公众号，回复： 14317535 查看本文章

ͼ3(a)的副本.png 图3(a) MPE环境Predator-Prey场景实验结果

ͼ3(b)的副本.png 图3(b) MPE环境Spread场景实验结果 ͼ3(c)的副本.png 图3(c) MPE环境Attack场景实验结果 ͼ3(d)的副本.png 图3(d) SISL环境Multi-Walker StandUp实验结果

同时，网易伏羲也在更贴近真实游戏的谷歌足球5v5半场进攻场景中验证了IRAT的实际效果，结果如图4所示。从结果中可以看到，IRAT算法（紫色曲线）在500万步左右就能取得7个球的净胜球指标，而其他算法最快也要到3000万步之后才能到达这一水平。

ͼ4(a)的副本.png 图4(a) 谷歌足球5v5半场进攻场景示意图

图4(b)-eps格式的副本.png

图4(b) 谷歌足球5v5半场进攻实验结果

正如前文所述，IRAT算法提出的动机来自于真实的游戏应用需求。网易伏羲希望在训练游戏竞技机器人的过程中，通过引入人类先验知识（即个体奖励或者塑形奖励）来解决稀疏奖励问题，赋予机器人一定的行为特点但不偏离原有目标（如胜率、强度等）。同时，也希望避免繁琐的奖励调整工作，优化强化学习模型的训练流程，实现降本增效的目的。

目前，IRAT算法已经在网易内部的体育竞技类游戏和MMORPG游戏中进行了落地尝试，并取得了初步效果。

据了解，国际机器学习大会（International Conference on Machine Learning，简称ICML）是由国际机器学习学会（IMLS）主办的机器学习国际顶级会议，与NeurIPS和ICLR并称机器学习三大会，在机器学习和人工智能领域有极高的影响力。其论文遴选标准严格，今年大会共收到5630篇论文投稿，经过两阶段审稿后，仅有1235篇被接受，最终录用率为21.9%。

上榜ICML2022，网易伏羲研究成果助力优化游戏AI训练流程

猜你喜欢