Playing Go using Deep Reinforcement Learning without Hu

作者:禅与计算机程序设计艺术

1.简介

​ Go (围棋)是一个古老而经典的桌上五子棋游戏,在中国也有许多知名度。围棋与其他两岸三地桌面游戏不同,它并不强调一步到位的控制感,只要博弈双方都遵守规则,就能通过“博弈”取得胜利。围棋中每个位置可以放置两个棋子(白色、黑色),一个位置可以下四颗棋子。在一步行动中,任何一方都需要做出选择,棋手选择什么子,将放在哪个位置,并且还需保持棋局的平衡。围棋引起了极高的受欢迎程度,这也是其与中国象棋之类的近代冷门游戏之间的重要区别。

​ 围棋作为当时世界上最流行的策略性游戏,在AI界也占有重要的地位。以Deep Reinforcement Learning (DRL)为代表的强化学习方法已经成功地应用于围棋领域,通过对手势、环境状态等进行建模,利用机器学习技术训练出围棋模型,从而让计算机在自我学习的过程中,识别出合适的对手位置和落子方式,最大化自己在游戏中的胜率。近年来,围棋模型多种多样,各有千秋,但对于如何训练出好的DRL模型却存在很多难题。

​ 本文试图通过系统性地探讨DRL在围棋中的应用和发展,阐述DRL在围棋中的作用机制、局限性、优缺点、适用范围及未来发展方向。希望能够提供一些宝贵意义。

​ 作者简介: ,前清华大学研究生毕业,曾任国防科技大学助教授,现任百度资深算法工程师,擅长领域包括智能搜索、推荐系统、图像理解、自然语言处理、生物信息学、机器学习以及无人驾驶。

2.基本概念术语说明

2.1 策略网络

​ 策略网络(Policy Network),即DRL模型的输出层。该网络接受历史状态(S

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132364063
今日推荐