Playing Go using Deep Reinforcement Learning without Hu

企业开发 2023-08-18 17:37:13 阅读次数: 0

作者：禅与计算机程序设计艺术

1.简介

Go (围棋)是一个古老而经典的桌上五子棋游戏，在中国也有许多知名度。围棋与其他两岸三地桌面游戏不同，它并不强调一步到位的控制感，只要博弈双方都遵守规则，就能通过“博弈”取得胜利。围棋中每个位置可以放置两个棋子（白色、黑色），一个位置可以下四颗棋子。在一步行动中，任何一方都需要做出选择，棋手选择什么子，将放在哪个位置，并且还需保持棋局的平衡。围棋引起了极高的受欢迎程度，这也是其与中国象棋之类的近代冷门游戏之间的重要区别。

围棋作为当时世界上最流行的策略性游戏，在AI界也占有重要的地位。以Deep Reinforcement Learning (DRL)为代表的强化学习方法已经成功地应用于围棋领域，通过对手势、环境状态等进行建模，利用机器学习技术训练出围棋模型，从而让计算机在自我学习的过程中，识别出合适的对手位置和落子方式，最大化自己在游戏中的胜率。近年来，围棋模型多种多样，各有千秋，但对于如何训练出好的DRL模型却存在很多难题。

本文试图通过系统性地探讨DRL在围棋中的应用和发展，阐述DRL在围棋中的作用机制、局限性、优缺点、适用范围及未来发展方向。希望能够提供一些宝贵意义。

作者简介：，前清华大学研究生毕业，曾任国防科技大学助教授，现任百度资深算法工程师，擅长领域包括智能搜索、推荐系统、图像理解、自然语言处理、生物信息学、机器学习以及无人驾驶。

2.基本概念术语说明

2.1 策略网络

策略网络(Policy Network)，即DRL模型的输出层。该网络接受历史状态(S

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132364063

Playing Go using Deep Reinforcement Learning without Hu

Playing Atari with Deep Reinforcement Learning论文解读

算法笔记：Playing Atari with Deep Reinforcement Learning

【5分钟 Paper】Playing Atari with Deep Reinforcement Learning

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

Fast deep reinforcement learning using online adjustments from the past

《Playing Atari with Deep Reinforcement Learning 》论文阅读笔记和分析（DQN 2013版）

Playing Atari with Deep Reinforcement Learning:打响DRL的第一枪

从Playing Atari with Deep Reinforcement Learning 看神经网络的输入，学习的状态空间

Relational Deep Reinforcement Learning

022 Deep Reinforcement Learning

Deep Reinforcement Learning is a waste of time

Random Thoughts on Deep Reinforcement Learning

# Asynchronous Methods for Deep Reinforcement Learning

Asynchronous Methods for Deep Reinforcement Learning

CAPES:Unsupervised Storage Performance Tuning Using Neural Network-Based Deep Reinforcement Learning

Deep Reinforcement Learning with Double Q-learning

Deep Reinforcement Learning: Pong from Pixels

Deep Reinforcement Learning 深度增强学习资源

Deep Reinforcement Learning 基础知识

Deep Reinforcement Learning （paper reading notes）

解读continuous control with deep reinforcement learning（DDPG）

Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning

Deep Reinforcement Learning with Iterative Shift for Visual Tracking

Dueling Network Architectures for Deep Reinforcement Learning: DuelingDQN

李宏毅Deep Reinforcement Learning笔记

Exploration Strategies in Deep Reinforcement Learning (2)

Exploration Strategies in Deep Reinforcement Learning (1)

Deep Reinforcement Learning for AutomatedStock Trading: An Ensemble Strategy

DQN Tutorial – Deep Reinforcement Learning with PyTorch

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)