【数据应用案例】openFive dota5v5战胜人类

@案例来源：@AI科技大本营 @AI科技评论 @论智

@案例地址：https://mp.weixin.qq.com/s/exvP4FucUfeOONsUkyTz7w；https://mp.weixin.qq.com/s/-llCCnFkDypVNiEh4yjNMg；https://www.jqr.com/article/000306

0. 背景：美国时间8月5日，open AI的5v5dotaAI “Open Five”2比1战胜了由主播、前职业选手组成的人类战队。

1. 目标：训练能在5v5比赛中打赢高水平人类选手的AI

2. 难点：

1）强化学习能学习到“带来高反馈”的模式，但是游戏中影响胜利的因素很多，视野、团战、技能冷却中、分路、兵线等，人类也难以定义哪些因素对最终胜利起到决定性因素，为模型制定反馈规则较为复杂

2）仅仅以最终胜负作为反馈的话，会带来反馈稀疏的问题

3）5v5游戏中需要团队配合，包括核心辅助的角色划分，前中后期的资源分配等

4）视野有限：必须在有限信息中进行决策

5）高维、连续的观察空间和动作空间

6）短期收益与长期收益的矛盾：打钱可以提高短期收益，但是队友推塔时自己还在打钱会降低推塔成功率，从而影响长期收益

3. 基本框架

1）为每个英雄单独训练一个网络，网络为一个单层的、1024-unit 的 LSTM

2）观察空间：通过dota的bot api获取实时的游戏信息，将世界视为 20000 个数字的列表

3）动作空间：动作、动作在单元格网络中的X或Y坐标等，共8个值的列表

4）训练：

a. 使用“Rapid”通用 RL 训练系统，训练系统分为 rollout workers，运行游戏副本，智能体（agent），用来收集经验，优化器节点（optimizer nodes）执行跨 GPU 组的同步梯度下降。每次训练还包括分别对训练机器人以及样本机器人进行评估的组件，以及监视软件，比如 TensorBoard，Sentry 以及 Grafana。

b. 使用128,000个preemptible CPU，256个P100 GPU。一天的训练量相当于人类不间断玩了180年游戏

c. 为了避免“策略崩溃”，智能体在训练的时候，80％的游戏都是自我对抗，另外 20％则是与过去的自己进行对抗

d. 为了强制探索动作空间，在训练中对智能体的血量、移速、初始等级随机化，强迫其进行探索

4. trick

1）增加表现行为（总财产、补刀数、击杀数、助攻数、死亡数）作为反馈指标

2）引入人类对英雄的定位信息（如核心、辅助等）：鼓励AI将表现指标“达到”人类的平均水平，而不是越大越好。如冰女是辅助英雄，补刀数低，助攻数高，当AI表现越接近人类在相同时间的平均值时，获得的奖励越高

3）团队精神：设置一个“团队精神”超参数，平衡AI个体收益和团队收益之间的奖励权重

4）探索与攻击肉山：在Open Five刚发布的时候，AI是不会主动去打肉山。但是在本次比赛中，AI频繁探索肉山视野（避免对手打肉山），并有了打肉山的行为。训练技巧是在训练中给肉山随机血量，那么AI探索肉山并遇见肉山随机到低血量的时候，很容易低成本获得高奖励，从而鼓励AI开始关注肜

5）眼：训练AI买眼与插眼控制视野太过复杂（眼在游戏中是有限的稀缺资源，插眼需要对游戏未来数分钟局势的判断，同时插眼需要付出较高的时间成本和生命危险，因此计算插眼路线也十分困难），所以目前直接通过脚本的形式写入AI，让AI有眼的时候就买。眼会占格子，当AI格子满的时候，就会插眼（所以比赛中AI的眼位比较奇特）

【数据应用案例】openFive dota5v5战胜人类

猜你喜欢