深度强化学习算法 (DRL, Deep Reinforcement Learning Algorithm) 的神经网络是否需要使用批归一化 (BN, Batch Normalization) 或归一化(白化 whitening)?
深度强化学习不需要批归一化,但是可以用归一化。(长话短说)
归一化指的是深度学习的白化(whitening),这种操作可以让神经网络舒服地训练。本文讨论了 state action 这些输入值 以及 Q 值(reward)这些输出值 的归一化问题。见下方目录。
舒服地训练:让神经网络的输入值,或者输出值尽可能靠近正态分布,从而让激活函数正常工作,随机初始化的参数不需要被夸张地调整,梯度下降优化器的超参数可以不调。
代码与对应的流程,如下:
- ElegantRL 的网络基类,Critic 网络,直接把归一化的均值和方差这些参数记录在神经网络里,即插即用