- 问题一:在pytorch上训练分割模型时,出现
cuda runtime error (59) : device-side assert triggered at xxx
- 解决办法:通过
CUDA_LAUNCH_BLOCKING=1 python3 main.py
来捕获GPU上的错误,如下图所示
从上图可看出,label的值不在类别数范围内,检查后发现之前使用cityscapes数据集类别设为20,在使用VOC数据集时虽然也是20类,但还包括背景,故应设为21类,问题解决。 - 问题二:训练时出现
RuntimeError: invalid argument 0: Sizes of tensors must match except in dimension 0. Got 672 and 512 in dimension 1 at xxx
- 解决办法:原因是在train或val时batch_size不等于1,而同一个batch的图像size不一致,故设batch_size=1即可。
- 问题三:在使用tensorboard进行显示时,出现
TypeError: GetNext() takes 1 positional argument but 2 were given
- 解决办法:tensorboard版本不对,最好与tensorflow版本完全一致(如tensorflow=1.10,tensorboard=1.10),以防兼容性问题。
pytorch训练error
猜你喜欢
转载自blog.csdn.net/u013187057/article/details/83069227
今日推荐
周排行