【强化学习】AlphaGo Zero译文

AlphaGo Zero论文中文版

**:Mastering the game of Go without human knowledge

绪论

长久以来，人工智能的目标是在富有挑战性的领域中学习出一种从无知幼儿到超级专家的算法。最近，AlphaGo已经成为第一个在围棋比赛中打败世界冠军的程序。AlphaGo中的树搜索使用深度神经网络来评估棋局和选择动作。这些神经网络是利用人类专家的动作通过监督学习训练而来，然后通过强化学习来进行自我对弈。这里，我们引入了一种完全独立的强化学习算法，不需要采用人类数据或是基于游戏规则的引导或领域知识。AlphaGo成为自己的老师：通过训练神经网络来完成AlphaGo的动作选择的预测和对弈的胜者。这个网络还提高了树搜索的能力，使得能够在下一手中有更高质量的落子选择和更强的自我对弈能力。从无知幼儿开始，我们新的程序—AlphaGo Zero达到了超级专家的水平，在与之前开发的AlphaGo的对弈中，取得了100-0的完胜。

引言

人工智能领域取得的很多进步都是通过训练监督学习系统去复制人类专家的决策实现的。然而，专家数据集通常是昂贵的，不可靠的，且难以获取。即使可以获取可靠的数据集，它们也可能对用这样的方法训练出的系统性能造成限制。相比之下，用自己经验训练出来的强化学习系统，在原则上允许它们超越人的能力，且在人类专业知识不足的领域中也能运行。最近利用强化学习训练的深度神经网络在实现这个目标上已经有了飞速的进步。这些系统在诸如Atari6,7的计算机游戏领域和3D 虚拟环境领域中的表现已经超出人类。然而，在就人类智能而言最具有挑战的领域，仍要求在广阔的搜索空间中拥有精确而复杂的预测能力–例如围棋，一直被人工智能视为最大的挑战。在这些领域中，完全的基因方法还不能达到人类的水平。
AlphaGo是第一个在围棋游戏上具有卓越表现的程序。目前推出的AlphaGo版本，我们指的是AlphaGo Fan，在2015年10月的欧洲赛中打败了范辉。AlphaGo Fan使用了两个深度神经网络：一个策略网络输出行为概率和一个估值网络输出棋局评价。最初，策略网络用监督学习去训练来精确预测人类专家的走子，然后通过策略梯度强化学习来进行改进。训练估值网络是用来预测在策略网络的自我对弈中游戏的胜者。一般被训练，这两个神经网络通过蒙特卡洛树搜索结合起来提供超前搜索。使用价值网络（结合蒙特卡洛快速走子策略网络）在树上完成对落子位置的评估。在之后的版本中，我们称之为AlphaGo Lee，采用了相似的方法，在2016年5月打败了赢得了18个国际冠军的李世石。
我们的程序AlphaGo Zero，与AlphaGo Fan和AlphaGo Lee相比，在一些重要的方面有所不同。首先也是最重要的，它完全独立地采用自我对弈强化学习的方法来训练，从刚开始的随机博弈开始就没有任何的监督或使用人工数据。第二、它只用了棋盘上的黑白走子作为输入特征。第三、它用了单个神经网络，而不是分离的策略和估值网络。最后它采用了只依赖一种神经网络的更简单的树搜索策略，来评估棋盘和简单的走子，而不是用是采用蒙特卡洛方法。为了完成这样的目标，我们引入了一种新的强化学习算法来

【强化学习】AlphaGo Zero译文

AlphaGo Zero论文中文版

绪论

引言

猜你喜欢