现代RL算法:DQN

在传统RL算法中,依靠的是Policy和Value的协同迭代优化agent。

而现代,

DQN等value-based类算法弱化了Policy的存在,Policy成了Value的附属;

DDPG,PPO等policy-based类算法直接删掉了Value。agent只有Policy,只做一个从State到Action的映射。

DQN在干嘛?从(s,a)到Q(s,a)的映射

训练DQN的时候在训练的什么?Q(s,a;serta)的参数serta

DQN如何训练?

首先agent与env交互,采样,训练样本为(s,a,r,s'),存储在experience_replay里。

然后采用反向传播方法优化神经网络的参数serta。

误差为

猜你喜欢

转载自www.cnblogs.com/dynmi/p/12341635.html
DQN
RL
今日推荐