深度强化学习算法是否需要使用批归一化(Batch Norm) 或归一化,文本带你详解。

深度强化学习算法 (DRL, Deep Reinforcement Learning Algorithm) 的神经网络是否需要使用批归一化 (BN, Batch Normalization) 或归一化(白化 whitening)?

深度强化学习不需要批归一化,但是可以用归一化。(长话短说)

归一化指的是深度学习的白化(whitening),这种操作可以让神经网络舒服地训练。本文讨论了 state action 这些输入值 以及 Q 值(reward)这些输出值 的归一化问题。见下方目录。

舒服地训练:让神经网络的输入值,或者输出值尽可能靠近正态分布,从而让激活函数正常工作,随机初始化的参数不需要被夸张地调整,梯度下降优化器的超参数可以不调。

代码与对应的流程,如下:

猜你喜欢

转载自blog.csdn.net/sinat_39620217/article/details/131727365