今天初学pytorch遇到一个关于自动求导的问题,看了刘老师的视频恍然大悟,故记录一下。
刘老师视频
我是初学pytorch,想做一个线性回归练练手,我的代码是长这样的:
import torch
x=torch.tensor(range(0,100))
y=3.5*x+6+torch.rand(100)/10
w=torch.tensor(1.0,requires_grad=True)
b=torch.tensor(1.0,requires_grad=True)
for i in range(100):
y_pred=w*x+b
My_Loss=torch.nn.SmoothL1Loss()
loss=My_Loss(y,y_pred)
loss.backward()
w=w-0.01*w.grad
b=b-0.01*b.grad
但是运行时报错说w,b不是计算图中的叶子节点,无法计算梯度,我就很疑惑。
首先我们要知道,pytorch 中的每一个Tensor都有一个data属性和一个grad属性,data属性存储的是这个Tensor的数据,grad属性存储的是这个Tensor的梯度,值得注意的是grad属性也是一个Tensor。
为了反向传播自动求导,pytorch会在求导之前建立一张计算图,然后在这个计算图上进行反向传播。我们所对Tensor做的操作都会改变这个计算图,而在更改w,b的值的时候,我们错误地使用了这两行代码:
w=w-0.01*w.grad
b=b-0.01*b.grad
这其实是改变了整个计算图,我们的目的只是对w,b内的值进行更改,并不是要去修改整张计算图,在修改之后,w已经不再是计算图中的叶子节点。
因此,正确的代码如下:
import torch
x=torch.tensor(range(0,100))
y=3.5*x+6+torch.rand(100)/10
w=torch.tensor(1.0,requires_grad=True)
b=torch.tensor(1.0,requires_grad=True)
for i in range(100):
y_pred=w*x+b
My_Loss=torch.nn.SmoothL1Loss()
loss=My_Loss(y,y_pred)
loss.backward()
w.data=w.data-0.001*w.grad.data
w.grad.data.zero_()
b.data=b.data-0.001*b.grad.data
b.grad.data.zero_()
还有一点要注意的是,我们在求得每一次w,b的梯度之后,需要对其梯度内的值清零,否则其梯度内的值就会一直叠加。