怎样理解Actor-Critic与Policy Gradient之间的关系

其实不应该把Actor-Critic看做是DQN和PG之间的结合

PG是通过MC方法来获得总的回报G的,而这个方式其实有点慢,需要完整的采样。而TD就是针对这个问题改进的措施,DQN本质是就是用网络来实现高维输入下的TD算法,Actor-Critic可以看做是用TD的方法来改进PG

猜你喜欢

转载自blog.csdn.net/weixin_43450646/article/details/113586500
今日推荐