pytorch训练error

  • 问题一:在pytorch上训练分割模型时,出现cuda runtime error (59) : device-side assert triggered at xxx
  • 解决办法:通过CUDA_LAUNCH_BLOCKING=1 python3 main.py来捕获GPU上的错误,如下图所示
    在这里插入图片描述
    从上图可看出,label的值不在类别数范围内,检查后发现之前使用cityscapes数据集类别设为20,在使用VOC数据集时虽然也是20类,但还包括背景,故应设为21类,问题解决。
  • 问题二:训练时出现RuntimeError: invalid argument 0: Sizes of tensors must match except in dimension 0. Got 672 and 512 in dimension 1 at xxx
  • 解决办法:原因是在train或val时batch_size不等于1,而同一个batch的图像size不一致,故设batch_size=1即可。
  • 问题三:在使用tensorboard进行显示时,出现TypeError: GetNext() takes 1 positional argument but 2 were given
  • 解决办法:tensorboard版本不对,最好与tensorflow版本完全一致(如tensorflow=1.10,tensorboard=1.10),以防兼容性问题。

猜你喜欢

转载自blog.csdn.net/u013187057/article/details/83069227