蒙特卡洛树搜索（MCTS）算法 - 代码天地

蒙特卡洛树搜索（MCTS）算法

其他 2018-08-28 12:11:26 阅读次数: 0

对Alpha-zero很感兴趣，所以耐心阅读了mastering the game of go without human knowledge
Deepmind 官网的介绍：AlphaGo Zero: Learning from scratch
在阅读的过程中，对蒙特卡洛树搜索算法不甚了解，下面翻译了youtube上一位英国教授的网络课程视频。
同时，我在CSDN资源中上传了自己研究AlphaGo的两篇文章后，写的两个版本的AlphaGo算法结构和MCTS结构的对比分析的文章，名为”AlphaGo VS AlphaGo Zero 对比分析讲解”，有兴趣的读者可以下载。

蒙特卡洛树搜索（MCTS）算法

MCTS算法是一种决策算法，每次模拟（simulation）分为4步：
1. Tree traversal:
$UCB1(S_i) = \overline{V_i}+c\sqrt{\frac{\log N}{n_i}}, c=2$
其中， $\overline{V_i}$ 表示 $S_i$ 状态的平均value(下面会进一步解释）
2. Node expansion
3. Rollout (random simulation)
4. Backpropagation

步骤1，2的流程图如下：

步骤1，2的流程图如下：

步骤3 Rollout 的细节：

Rollout(S_i):
    loop forever:
        if S_i is a terminal state:
            return value(S_i)
        A_i = random(available-actions(S_i))
        S_i = simulate(A_i,S_i)

讲一个具体的例子：

树的初始状态：
T 表示总的 value, N 表示被访问的次数（visit count）。A表示动作（action）.

这里写图片描述

第一次迭代（iteration）：

从状态 $S_0$ 开始，要在下面两个动作中进行选择（假设只有两个动作可选），选择的标准就是 $UCB1(S_i)$ 值。显然可算得：

U C B 1 (S 1) = U C B 1 (S 2) = \infty

$UCB1(S_1)=UCB1(S_2)=\infty$

这种情况下，我们就按顺序取第一个，即 $A_1$ 。从而，达到状态 $S_1$ 。

按照步骤1，2的流程图，我们现在需要判断目前的结点 $S_1$ (current node)是不是叶节点，这里叶节点是指其没有被展开（expansion）过。显然，此结点没有被展开过，所以是叶节点。接下来，按照流程图，需要判断结点 $S_1$ 被访问的系数是否为0。是0，所以要进行Rollout。

Rollout其实就是在接下来的步骤中每一步都随机采取动作，直到停止点（围棋中的对局结束），得到一个最终的value。

假设Rollout最终值为20.

这里写图片描述

接下来，进行步骤4 Backpropagation，即利用Rollout最终得到的value来更新路径上每个结点的T,N值。

这里写图片描述

之后把Rollout的结果删除：

这里写图片描述

MCTS的想法就是要从 $S_0$ 出发不断的进行迭代，不断更新结点值，直到达到一定的迭代次数或者时间。

第二次迭代：

我们从 $S_0$ 出发进行第二次迭代（iteration）：

首先，计算下面两个结点 $S_1,S_2$ 的 $UCB1$ 值：

U C B 1 (S 1) = 20 U C B 1 (S 2) = \infty

$UCB1(S_1) = 20 ~~~~ UCB1(S_2) = \infty$
所以，选动作

A2 $A_2$ ，从而达到状态

S2 $S_2$ 。

同上，现在要判断结点 $S_2$ 是否是叶结点。是，所以继续判断其被访问的次数。是0，所以进入Rollout, 假设Rollout最终值为10.

这里写图片描述

之后进行Backpropogation:

这里写图片描述

第三次迭代：

首先，计算UCB1值：

U C B 1 (S 1) \approx 21.67 U C B 1 (S 2) \approx 11.67

$UCB1(S_1) \approx 21.67 ~~~ UCB1(S_2) \approx 11.67$

执行动作 $A_1$ ，进入状态 $S_1$ 。
是否是叶节点？是。
被访问次数是否为0？否。
按照流程图所示，现在进入Node expansion步骤。同样假设只有两个动作可选。

这里写图片描述

选择 $S_3$ 进行 Rollout，假设Rollout最终值为0.

这里写图片描述

更新路径上每个结点的值，之后删除Rollout的值：

这里写图片描述

第四次迭代：

首先，计算UCB1值：

U C B 1 (S 1) = 10 + 2 log 3 2 - - - - \sqrt \approx 11.48 U C B 1 (S 2) \approx 12.10

$UCB1(S_1) = 10+2\sqrt{\frac{\log3}{2}} \approx 11.48 ~~~ UCB1(S_2) \approx 12.10$

选择 $A_2$ ，进入状态 $S_2$ , 接下来和第三次迭代一样的步骤：

这里写图片描述

更新路径上的结点：

这里写图片描述

假设我们设定最大迭代次数为4，则我们的迭代完毕。这时，利用得到的树来决定在 $S_0$ 处应该选择哪个动作。根据UCB1值，显然我们要选择动作 $A_2$ .

以上就是MCTS的过程，是翻译自youtube.。

以上内容如有错误，皆由博主负责，与youtube上教授无关。

猜你喜欢

转载自blog.csdn.net/ljyt2/article/details/78332802

蒙特卡洛树搜索（MCTS）算法

MCTS-蒙特卡洛树搜索

（MCTS）蒙特卡洛树搜索——参数寻优

蒙特卡洛树搜索 MCTS 入门

蒙特卡洛树搜索（MCTS）在AlphaGo Zero中

DQN、蒙特卡洛树搜索（MCTS）

面向初学者的蒙特卡洛树搜索MCTS详解及其实现

28 天自制你的 AlphaGo（五）：蒙特卡洛树搜索（MCTS）基础

强化学习（八）：Dyna架构与蒙特卡洛树搜索MCTS

MCTS蒙特卡洛树搜索（The Monte Carlo Tree Search）

python使用蒙特卡洛树(MCTS)算法实现黑白棋miniAlphaGo for Reversi

蒙特卡洛树搜索

蒙特卡洛树搜索学习

如何用蒙特卡洛树搜索(MCTS)制作智能五子棋【含源码】_01

深度解析黑白棋AI代码原理（蒙特卡洛搜索树MCTS+Roxanne策略）

蒙特卡洛算法

蒙特卡洛算法、

蒙特卡洛搜索树实现井字棋

蒙特卡洛树搜索——比谁想的远

蒙特卡洛树搜索（新手教程）

蒙特卡洛树搜索算法 —— github上的implement的原代码

使用PyTorch实现简单的AlphaZero的算法（2）：理解和实现蒙特卡洛树搜索

Alphago中的蒙特卡洛算法

蒙特卡洛算法与电脑围棋

蒙特卡洛算法求PI

算法基础--蒙特卡洛模拟

随机算法_蒙特卡洛

蒙特卡洛算法详解

蒙特卡洛算法介绍

AlphaGo制胜绝招：蒙特卡洛树搜索入门指南

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)