【强化学习笔记】6.7 基于值函数逼近的强化学习方法-深度强化学习网络(DQN)

深度强化学习网络(DQN)

深度强化学习网络(DQN)是一种基于值函数逼近的强化学习方法,是在Q_learning基础上改进的,主要的改进有三个:

(1)利用深度卷积神经网络逼近行为值函数,DQN使用的网络结构为三个卷积层和两个全连接层,输入是棋盘图像,输出是动作对应的概率。
(2)利用经验回放(均匀采样)训练强化学习的学习过程,通过对历史数据的均匀采样,实现数据的历史回放,打破采集和学习的数据之间关联性,保证值函数稳定收敛。
(3)设置单独目标网络来处理时间差分算法中的TD偏差,即动作值函数中的参数每步更新一次,计算TD偏差的参数每隔固定步数更新一次。

DQN改进-Double DQN

(1) 将动作的选择和评估分别使用不同的值函数来实现。
(2)打破均匀采样,赋予学习效率高(偏差大)的状态以更大的采样权重

DQN改进-Dueling DQN

(1)将动作值函数分解为状态值函数和优势函数。

DQN改进-其他

待更

参考书籍:

  1. 深入浅出强化学习原理入门

欢迎关注微信公众号:AITBOOK
在这里插入图片描述

原创文章 99 获赞 103 访问量 34万+

猜你喜欢

转载自blog.csdn.net/bigheadyushan/article/details/80850525