【强化学习笔记】6.7 基于值函数逼近的强化学习方法-深度强化学习网络(DQN) - 代码天地

【强化学习笔记】6.7 基于值函数逼近的强化学习方法-深度强化学习网络(DQN)

其他 2020-05-02 20:09:31 阅读次数: 0

深度强化学习网络(DQN)

深度强化学习网络(DQN)是一种基于值函数逼近的强化学习方法，是在Q_learning基础上改进的，主要的改进有三个：

（1）利用深度卷积神经网络逼近行为值函数，DQN使用的网络结构为三个卷积层和两个全连接层，输入是棋盘图像，输出是动作对应的概率。
（2）利用经验回放（均匀采样）训练强化学习的学习过程，通过对历史数据的均匀采样，实现数据的历史回放，打破采集和学习的数据之间关联性，保证值函数稳定收敛。
（3）设置单独目标网络来处理时间差分算法中的TD偏差，即动作值函数中的参数每步更新一次，计算TD偏差的参数每隔固定步数更新一次。

DQN改进-Double DQN

（1）将动作的选择和评估分别使用不同的值函数来实现。
（2）打破均匀采样，赋予学习效率高（偏差大）的状态以更大的采样权重

DQN改进-Dueling DQN

（1）将动作值函数分解为状态值函数和优势函数。

DQN改进-其他

待更

参考书籍：

深入浅出强化学习原理入门

欢迎关注微信公众号：AITBOOK
在这里插入图片描述

AITBOOK

原创文章 99 获赞 103 访问量 34万+

关注私信

猜你喜欢

转载自blog.csdn.net/bigheadyushan/article/details/80850525

【强化学习笔记】6.7 基于值函数逼近的强化学习方法-深度强化学习网络(DQN)

基于值函数逼近的强化学习方法

【强化学习笔记】6.6 基于值函数逼近的强化学习方法-TD Q-learning非线性逼近softmax代码实现

【强化学习笔记】6.5 基于值函数逼近的强化学习方法-TD Q-learning非线性逼近代码实现

【强化学习笔记】6.4 基于值函数逼近的强化学习方法-TD Q-learning线性逼近代码实现

深度强化学习DQN

深度强化学习—DQN

强化学习DQN

强化学习--基于值函数的强化学习算法

强化学习笔记

深度强化学习笔记

【强化学习笔记】9.1 基于确定性策略搜索的强化学习方法

【强化学习笔记】8.1 基于置信域策略优化的强化学习方法

【强化学习笔记】7.1 基于策略梯度的强化学习方法

深度强化学习

强化学习笔记：DQN和DDQN

基于Stochastic Policy的深度强化学习方法

强化学习（3）-----DQN

强化学习 DQN算法

强化学习：DQN（转载）

强化学习算法—DQN

强化学习算法DQN

强化学习------DQN in maze

强化学习之DQN

深度强化学习——从DQN到DDPG

深度强化学习 ( DQN ) 初探

深度强化学习之DQN实战

深度强化学习-DQN算法

深度强化学习——DQN算法原理

强化学习值函数

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)