AssertionError:xxx in multi_head_attention_forward assert key_padding_mask.size(0) == bsz

解决: transformer encoder 和decoder过程中,mask的维度和bachsize的设置不一致,

   一批数据的num如果不能batchsize整除,则bs不要人为设定。

猜你喜欢

转载自blog.csdn.net/qq_35831906/article/details/127753703