神经网络调参经验

对比Mean 和 Max

如果某些动作路径(从神经网络的策略输出中采样)比平均动作路径好得多,那么通过调整策略就有增加奖励的空间。相反,当这个差距缩小时,模型就收敛了;

猜你喜欢

转载自www.cnblogs.com/twodoge/p/12080024.html