Mastering the game of Go with deep neural networks and tree search 概括

文章投稿于2016年的《Nature》，它是多种计算方法的集合。“价值网络”评估棋局、“策略网络”选择落子，深层神经网络，由人类专家博弈训练的监督学习和电脑自我博弈训练的强化学习，共同构成的一种新型组合。在没有任何预先搜索的情境下，这些神经网络能与顶尖水平的、模拟了千万次随机自我博弈的蒙特卡洛树搜索程序下围棋。这篇文章提出了一个新的搜索算法，结合了估值和策略网络的蒙特卡洛模拟算法。

离线学习有三个阶段：

第一阶段：用监督学习预测围棋中高手的落子情况，此SL（surprised learning下同）策略网络在带有权重数组变量σ和整流器非线性特征值数组的卷积层间交替使用。最终的softmax层输出一个所有合法落子情况的概率分布a。此策略网络的输入变量s是一个棋局状态的简单标识变量。策略网络基于随机采样的棋盘情形-操作对（s，a）做训练：采用随机梯度升序法，在选定状态s时，取人类落子a的最大相似度（即对策略网络的概率函数取ln对σ求偏导）。用这种方法借助KGS围棋服务器上的3000万种棋局，训练了一个13层策略网络，称之为SL策略网络。为了追求速度也训练了一个走子的策略网络Π可精度很低（百分之二十四），但是速度达到了2微妙。
第二阶段：旨在用策略梯度型增强学习（RL）来提高之前的策略网络。这种RL策略网络pρ在结构上与SL策略网络相同，其权重ρ被初始化为相同值：ρ=σ。我们使其在当前策略网络pρ和某个随机选择的上次迭代产生的策略网络之间进行对弈。这种方法的训练，要用随机化的存有对手稳定态的数据池，来防止对当前策略的过度拟合。我们使用报酬函数r(s)，对所有非终端时间步长t<T时，赋值为0。其结果值zt = ± r(st)是博弈结束时的终端奖励：按照当前博弈者在时间步长t时的预期，给胜方+1、败方−1。权重在每一次步长变量t时，按照预期结果最大值的方向，进行随机梯度升序更新。
第三阶段：　最后阶段的训练管道聚焦在对棋局的评估，用一个估值函数做估计，给棋局s中两个使用策略p的博弈者预测结果，理想情况下，我们想知道完美博弈v*(s)中的最优值函数；实践中，我们用估计除的值函数代替做估算，作为最强策略用在RL策略网络中。我们用带权重数组θ的估值网络vθ(s)对此估值函数做近似。该神经网络具有一种与此估值函数相似的结构，但输出一个单一预测，而不是一个概率分布。我们用状态-结果对(s,z)回归，训练该估值网络权重，使用随机梯度降序来最小化该预测值vθ(s)和相应结果z间的均方差（MSE）。由于使用数据集来预测是十分愚蠢的，所以需要有大量完全不同的棋盘数据集来进行预测以此来解决过度拟合问题。

下图为神经网络训练管道及体系结构（引用自论文本身）：

在线对弈的蒙特卡洛树搜索：

用蒙特卡洛走子来估算一个搜索树中每个状态的值。随着更多模拟情况的执行，该搜索树生长变大、相关值变得更加准确。随着时间的推移，通过选择那些较高估值的子树，搜索过程中选择弈法的策略也得到了提高。该策略渐进收敛于最优弈法，对应的估值结果收敛于该最优值函数。

当前最强的围棋程序都基于MCTS，AlphaGo的蒙特卡洛树搜索是配和深度神经网络构造的表征值来减少搜索空间的，在一种采用前向搜索选择弈法的MCTS算法里，结合使用策略和估值网络，并且为了有效结合MCTS和深度神经网络，AlphaGo采用异步多线程搜索，在多CPU上执行模拟、多GPU并行计算策略和估值网络。

当前最强的围棋程序都基于MCTS，AlphaGo的蒙特卡洛树搜索是配和深度神经网络构造的表征值来减少搜索空间的

结合对几篇博客和论文的理解，本人大二仅限于对思想上的大致了解，公式等等细节还要继续推敲，仅在于自学的总结，当然能够帮助别人更加美哉。有错也请不吝赐教，新人请多多关照！

Mastering the game of Go with deep neural networks and tree search 概括

猜你喜欢