深度强化学习:详解优化器加上REINFORCE算法迭代求解【组合优化】

优化优化器的优化器 Learning to optimize,惊讶于它在解组合优化问题上有优势。

想要看公式,可以阅读与之相关 3 篇论文有:

更多解读,可以看:

https://bair.berkeley.edu/blog/2017/09/12/learning-to-optimize-with-rl/

参数θ的优化器,将根据从神经网络一路传递出来的梯度去更新θ,用于最大化评价函数。
对于拟合标

猜你喜欢

转载自blog.csdn.net/sinat_39620217/article/details/131728321