tf.matmul是怎么对两个高维矩阵进行相乘操作的?

在Tensorflow中,我们经常使用tf.matmul对两个矩阵进行相乘操作,按理说,矩阵相乘只能发生在二维矩阵之间,那么对于高维矩阵是怎么处理的呢?

我们可以用三维矩阵举例:

a = tf.ones((2, 2, 3))
b = tf.ones((2, 3, 2))
print('a:', a)
print('b:', b)
print('matmul:', tf.matmul(a, b))
a: tf.Tensor(
[[[1. 1. 1.]
  [1. 1. 1.]]

 [[1. 1. 1.]
  [1. 1. 1.]]], shape=(2, 2, 3), dtype=float32)
b: tf.Tensor(
[[[1. 1.]
  [1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]
  [1. 1.]]], shape=(2, 3, 2), dtype=float32)
matmul: tf.Tensor(
[[[3. 3.]
  [3. 3.]]

 [[3. 3.]
  [3. 3.]]], shape=(2, 2, 2), dtype=float32)

由此可见,对于高维矩阵的相乘实质上是对高维矩阵中每个二维矩阵相乘,所以,我们要保证两个要相乘的高维矩阵的最后两个维度符合二维矩阵相乘的规则,两个高维矩阵的其他维度需要相同,如(2,3,5)和(2,5,5)。另外,因为广播机制,第一个维度是1可以匹配任何第一维度不是1的矩阵,如矩阵(1,3,5)和矩阵(2,5,5)也可以相乘且结果和(2,3,5)乘(2,5,5)相同。

发布了145 篇原创文章 · 获赞 43 · 访问量 11万+

猜你喜欢

转载自blog.csdn.net/qq_36758914/article/details/105490681