Uber用新型AI机器打出游戏最高分

在AI玩游戏的研究中，Atari发行的「蒙特祖马的复仇」（Montezuma’s Revenge）和「陷阱」（Pitfall）一直都被公认为AI难以突破的最难游戏，这两款游戏中都体现了真实世界问题的挑战，这种问题被称为探索问题（Hard-exploration problem），而Uber的AI实验室最近发表新型机器学习算法Go-Explore，不需要人类的示范，该AI程序创下高分的超人类表现，在蒙特祖马的复仇这款游戏中，AI程序最高获得超过2,000,000分，超越人类玩家最高记录分数，而平均也拿下超过400,000分，并突破到第159关，在陷阱这款游戏中，AI程序则是获得平均21,000分，远远超越人类玩家的平均表现。与其他AI程序不同，Go-Explore并没有用人类的示范作为训练资料，而是从人类的专业知识中学习，该算法与其他深度学习算法有很大的不同，Uber认为，该算法能够在多种具有不同挑战的问题中，获得很大的进展，特别是在机器人的开发上。

蒙特祖马复仇游戏中的探索问题挑战在于，程序必须在很少的奖励讯号，或是具有混淆性的回馈机制中，学习复杂的任务，由于只有非常少量的回馈讯号，随机的行为很难产生有效的回馈，也使得程序难以在执行中自我学习，而在陷阱游戏中，甚至，有些回馈是令人混淆的，导致程序学习到错误的行为，因为许多行为会导致小的负面回馈，像是打敌人，因此程序就学习到不要采取行动，因而永远无法收集到珍贵的宝物，这些情况其实正是在真实世界中的问题。为了解决这类型的挑战，现有深度学习算法会加入内在动机（intrinsic motivation）机制，在程序进阶到新的状况或是到达新的位置时，给予奖励，但是这样的方式对于探索还是有所限制，举例来说，当给AI程序在2个迷宫探索时，一开始程序选择了其中一个迷宫的入口，进入迷宫开始探索后，会因为不断更新位置得到奖励，但是程序完成一个迷宫的探索之后，对于一开始放弃另一个迷宫的行为并没有明确的记忆，更糟的是，前往另一个迷宫的路径已经被认定为探索过的位置，因此，由于不会获得奖励，AI程序不太可能重新探索该区域。

Go-Explore将学习分为2个阶段，包含探索和稳固（robustification），第一阶段系统进行探索时，会同时记录探索的路径，并往返可能的区域进行探索，检查是否有助于提供更好的效果，Go-Explore试图探索所有可能到达的区域，因此不容易受到混淆回馈机制影响，第二阶段则是透过模仿学习找出最佳穿越路径。Uber研究团队表示，这项研究成果解决了探索增强学习的问题，也开启了许多研究方向，包含用不同的方式记录探索路径、挑选往返探索位置的方法、不同的探索方式等。日前DeepMind和OpenAI也有发布用AI程序玩蒙特祖马复仇的研究成果，DeepMind是利用模仿学习（Imitation Learning）来让AI程序学习玩游戏，OpenAI则是从人类游戏示范中挑选一段适当的状态，使用近端政策优化（Proximal Policy Optimization，PPO）的增强学习来学习游戏。

Uber用新型AI机器打出游戏最高分

猜你喜欢