【RL从入门到放弃】【四】

1、Deep Q Network

deep q network是基础是q_learning,里面的改善包含三个方面

1、深度神经网络逼近值函数

DQN利用深度卷积神经网络逼近值函数,DQN的行为值函数利用神经网络逼近,属于非线性逼近。虽然逼近方法不同,但都属于参数逼近。请记住,此处的值函数对应着⼀组参数,在神经网络,参数是每层网络的权重,我们表示。公式表示的话值函数为 。请留意,此时更新值函数时其实是更新参数 ,当网络结构确定时, 就代表值函数。DQN所示的网络结构是三个卷积层加两个全连接层,整体框架如图6.7所示。

2、经验回放

3、目标网络

猜你喜欢

转载自blog.csdn.net/feifei_csdn/article/details/88788430