pytoch 设置了requires_grad=True,但是计算梯度(grad)为none

来源:AINLPer微信公众号(点击了解一下吧
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-16

代码示例

x_in=torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).view((1,1,3,3)).type(torch.FloatTensor)
y_out=torch.tensor([[19, 25],[37, 43]]).view(1,1,2,2).type(torch.FloatTensor)
c_core=torch.randn(2,2).view((1,1,2,2)).type(torch.FloatTensor)
c_core=c_core.requires_grad_()    
LR=0.01
# 定义一个损失函数
loss_fun=nn.MSELoss()
for i in range(10):
    y_pre=nn.functional.conv2d(x_in,c_core)
    loss=loss_fun(y_pre,y_out)
    print(c_core.grad)
    loss.backward()
    c_core=c_core-c_core.grad*LR
    print('the loss is:',loss)
print('c_core: ',c_core)

遇到的具体问题:

    针对这个问题,在pytoch中直接报出来的错误是:

TypeError: unsupported operand type(s) for *: 'NoneType' and 'float'

    针对这个报出来的问题,定位到当计算到“”c_core=c_core-c_core.grad*LR“”这句话时报错了,然后根据上面的输出才判断出来,原来c_core的grad为None。

##解决思路
    后来经过查询才发现,当计算梯度的时候,只有叶子节点才会保留梯度,所有中间节点的grad在计算完backward()的时候为了节约内存都会被清除掉。(叶子节点是自己最初定义的变量)。此时查看我定义的c_core,确实是我最初定义的变量啊。但是有一些细节被忽略了,就是下面这句话:

c_core=c_core-c_core.grad*LR

    其实上面这句话,已经对c_core做了改变,是经过计算得到的c_core,修改之后已经不是我们最初定义的变量了,而是成为了中间节点。为此怎么办呢?要保留中间节点其实很简单。就是在调用backward之前,首先调用c_core.retain_grad()。
##最终的代码修改为:

x_in=torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).view((1,1,3,3)).type(torch.FloatTensor)
y_out=torch.tensor([[19, 25],[37, 43]]).view(1,1,2,2).type(torch.FloatTensor)
c_core=torch.randn(2,2).view((1,1,2,2)).type(torch.FloatTensor)
c_core=c_core.requires_grad_()    
LR=0.01
# 定义一个损失函数
loss_fun=nn.MSELoss()
for i in range(10):
    y_pre=nn.functional.conv2d(x_in,c_core)
    loss=loss_fun(y_pre,y_out)
    c_core.retain_grad()
    loss.backward()
    c_core=c_core-c_core.grad*LR
    print('the loss is:',loss)
print('c_core: ',c_core)

发布了43 篇原创文章 · 获赞 3 · 访问量 3794

猜你喜欢

转载自blog.csdn.net/yinizhilianlove/article/details/104033592