一维卷积和二位卷积的区别

数值上的区别：１ｄ只需要输入和输出３维数组（ｂａｔｃｈ，ｃｈａｎｎｅｌ，ｉｎｐｕｔＤｉｍ）

２ｄ需要输入输出４维数组（ｂａｔｃｈ，ｃｈａｎｎｅｌ，ｉｎｐｕｔＨ，ｉｎｐｕｔＷ）

计算上的区别：１ｄ只在ｉｎｐｕｔＤｉｍ这个维度上计算，例子：ｓｐｅａｋｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ中每个ｓｅｇｍｅｎｔ有３９维＊３００ｆｒａｍｅ的数据，则只在时间维度上计算，即这里应该看成３９个通道，每个通道３００维数据，每个１ｄ卷积操作只在３００ｆｒａｍｅｓ上面进行

２ｄ要在ｉｎｐｕｔＨ，ｉｎｐｕｔＷ两个维度上面同时计算卷积，例子：ｓｐｅａｋｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ中每个ｓｅｇｍｅｎｔ有３９维＊３００ｆｒａｍｅ的数据，则会同时在时间和频率维度上计算卷积，即这里的３９和３００两个维度会同时计算卷积（之所以说３９维是频率维度，是因为ＭＦＣＣ等特征是咋傅里叶变换之后得到的）

意义上的区别：１ｄ卷积的一张“图”即为一个向量，这里即为３００维数据，３９个通道即相当于组成３９张“图”，实际上，整个３９＊３００才真正意义上算一张图，所以１ｄ卷积只会在一张真正意义上的图上面操作，不会产生多张真正意义上的图。

２ｄ卷积的一张图就是真正意义上的图了，因为它有宽和高两个维度作为操作对象，即这里的３９＊３００都是被卷积的维度，此时通道数量为１，所以在2d卷积中产生的多个通道即对应着多张真正意义上的图。而不是像1d卷积那样用于只有真正意义上的一张图。

注意：

对于1d卷积而言，39维*300frame的输入数据如上所述，39维为39个通道数，300为需要被卷积的时间轴上数值，所以在pytorch输入网络中时，39应该放到倒数第二个维度，300应该是最后一个维度，此时的1d卷积才是对300这个维度上面的卷积，而对于2d卷积则可以不用区分，因为两个维度都会公平地被卷积。

当然，在平时处理时，2d卷积都是把300放在前面，39放在后面的。所以转换成1d卷积时记得先permute一下维度才输入1d卷积。

说明：

上述叙述只为本人自己好理解，如果给别人造成混乱，就还是别看我的了。。。。。咳咳

一维卷积和二位卷积的区别

猜你喜欢