DeepMind的AlphaStar击败星际争霸职业玩家对于AI意味着什么？

点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★，与你不见不散

在12月份参加基准比赛之后，DeepMind的星际争霸AI --AlphaStar在一系列游戏中击败了职业选手！

640?wx_fmt=jpeg

暴雪的星际争霸是复杂的电子竞技游戏，没有单一的制胜策略。它在单人游戏模式中有自己的AI，但它依赖于手工制作的规则，比实际玩家更多地了解地图及其对手的状态，并且能够比人类更快地同时执行命令。鉴于其复杂性，击败人类被认为是人工智能研究的另一个重要里程碑。但所有其他星际争霸AI之前主要依赖于一系列手动编写的规则和限制。直到现在，他们都没有接近职业球员的水平。

但AlphaStar不是人工智能。DeepMind的系统不是单一的模型，能够同时击败GO，国际象棋和星际争霸中的人类。他们的模型都不能以5连胜，跳棋或魔兽争霸战胜人类。不过，从技术上讲，这一成就可能比其他成就更为重要：

星际争霸的比赛非常长，并且执行的动作数远远高于GO游戏中的回合数。在游戏开始时做出的决定可能只会在最后阶段变得有用。错误的决定仍然可以伪装成有用的，如果后来玩家设法修复它们并转向游戏。战略的成功只能在每场比赛结束时得到充分评估，而所有成功的战略仍然可以与其他战略相媲美（特别是在星际争霸的情况下）。AlphaStar代理商能够学习多种通常良好的长期策略，而不仅仅依赖于利用。
玩家没有看到整个地图和他们所有对手的行为，只是粗略地了解他们将选择什么策略，这意味着星际争霸既是一个不完整和不完美的信息游戏。这意味着AlphaStar能够“提出”成功的长期策略，甚至可以在未知的情况下改变它们。
操作需要时间才能产生效果，命令只会在以后完全执行，并且只有在环境允许的情况下才会执行。AlphaGo可以将零件移动到任何自由位置，其决定将立即改变董事会。另一方面，AlphaStar需要有一些时间概念，如何提前计划并知道哪些策略在游戏的不同阶段更有用。
与基于回合的棋盘游戏不同，星际争霸是一款实时战略游戏，玩家可以同时采取行动。玩家对他们的观察反应越快，他们的结果就越优化。DeepMind的工程师已经设法培养了一种深度学习模型，该模型能够像专业人员一样快速响应其环境（甚至更快，但他们不允许这样做）。培训深度学习模型很昂贵，但运行它们既快又便宜，因此AI芯片在新一代智能手机中运行模式的普及。尽管代理商在16个云TPU V3上进行了2周以上的培训，并且平均每个420 teraflops（对于测量，PS4 Pro有4.2 teraflops GPU）由此产生的AlphaStar联盟模型适合在pendrive上运行，甚至可以在普通的台式PC上运行。

640?wx_fmt=png

那为什么这仍然不是通用AI？

这些游戏都在1张单独的地图上进行，其中1个单一种族（protos）对抗自身。游戏领域的迷你图像表示反馈送到模型而不是星际争霸的一系列屏幕截图。 AlphaStar尚未学习星际争霸，它已根据可用信息了解了在地图上执行哪些操作以及如何计时。这不是一个小的区别：AlphaStar可能无法在不同的地图上击败人类，不同种族或不同种族，甚至是玩不同版本的游戏。虽然它的新版本很可能会参与其他比赛，但学到的能力仍然与我们在环境中感知和选择动作的方式不同。

AlphaStar的胜利对人类来说仍然是一项巨大的成就，但这也意味着它只能在一个狭隘的领域取得成功：提出一系列有用的行动，并不等同于成为不同领域的战略家。这是在最后一场对阵MaNa的比赛中最清楚的，他在AlphaStar的战略中发现了一个漏洞，他不断滥用以最终获胜（迫使人们犯错误或计算机玩家重做次优策略也是职业球员使用的策略）。大多数人类玩家可以通过简单地建立一个单一的反击单位并制止它来避免他的伎俩。但是AlphaStar以前从未见过这样的信息，也没有一系列学到的行动来回应。 AlphaStar尚未学习星际争霸。然而，对于需要进行战略规划的领域而言，这是一个前所未有的解决方案。

640?wx_fmt=png

AlphaStar获胜意味着理论上，我们现在拥有在需要长期战略的领域使用AI的技术，信息只是部分可用，而实时决策是关键。尽管不是人工智能，但对于人类迄今为止必须自己解决的大多数复杂认知问题来说，它是一个很有前景的解决方案。除非我们希望人工智能成功解决问题，否则我们仍然需要在一定程度上缩小问题范围。