torch.repeat()

在写transformer代码的时候见到了torch.repeat()这个函数,关于它的输入输出规格,想到了一个很好记的方法。下面的三段代码就可以帮助理解了。

a = torch.arange(512)
b = a.repeat(1,32)
print(b.shape)
# b:(1,32*512)
a = torch.ones(32,100)
b = a.repeat(1,2,3)
# b:(1,2*32,3*100)
a = torch.ones(32,100)
b = a.repeat(10)
# RuntimeError: Number of dimensions of repeat dims can not be smaller than number of dimensions of tensor

那么在transformer定义position encoding那个步骤中,代码:

positions = torch.arange(inputs.size(1)).repeat(inputs.size(0), 1) + 1

就可以得到position的规格为:(batch_size(也就是inputs.size(0)) * seq_len(也就是inputs.size(1))),表示为:对于每一个样本(句子),都有seq_len个单词,也就是seq_len个position。每一个位置都有其位置编码(d_model维)(等完全掌握了transformer一定要写一个博客)

猜你喜欢

转载自blog.csdn.net/jokerxsy/article/details/106736026
今日推荐