《强化学习》探索方法

衡量探索

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

基于不确定性的探索

Thompson Sampling

这里写图片描述
这里写图片描述

UCB1

这里写图片描述
这里写图片描述

贝叶斯UCB

这里写图片描述
这里写图片描述

基于MCTS的规划

规划

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

MCTS

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

猜你喜欢

转载自blog.csdn.net/u012151283/article/details/80760217