神经网络训练 policy gradient 算法时 梯度消失问题

再训练算法时 发现梯度输出为none 试了好几次 从源头找原因

 

 最后得出的loss 一定要是 grad_fn=sumbackward 类似的类型 

不然他没有梯度

再次记录

Guess you like

Origin blog.csdn.net/weixin_43926417/article/details/121435907