一.解决的问题

1.卷积神经网络(CNNs)是一种能够直接作用于原始输入的深度学习模型，从而实现了特征构建过程自动化。
2.这些模型目前仅限于处理2D输入。在这篇论文中，我们开发了一个新颖的3D CNN动作识别模型。
3.该模型通过三维卷积从空间和时间两方面提取有限元数据，从而捕获多个相邻帧的运动信息。所建立的模型从输入帧中生成多个信息通道，通过对各通道的信息进行融合得到最终的特征表示。将所建立的模型应用于现实环境中对人的行为进行识别

二.3D卷积神经网络

1. 2D卷积计算公式：
在这里插入图片描述
（1）第i层第j个feature map中(x,y)位置的输出值，记为 $V^{xy}_{ij}$ 。
（2） $P_i$ 和 $Q_i$ 分别是核的高度和宽度。
（3） $W^{pq}_{ijk}$ 是内核连接到第k个feature map的位置(p,q)处的值。

2. 2D和3D卷积的区别
如下图所示3D卷积在temporal维度上每3个作为一个卷积核的输出，组成一个cube
在这里插入图片描述

3. 3D卷积计算公式
在这里插入图片描述
（1）其中R i是沿时间维的三维核的大小
（2） $w^{pqr}_{ijm}$ 是上一层第m个feature map的kernel的第(p,q,r)的值

三.文本3D卷积网络图(注意下面数字的变化)

在这里插入图片描述
（1）input：连续7帧的60*40的图片，也就是咱们的 batchsize $\times$ channel $\times$ width $\times$ high $\times$ frame

（2）input $hardwired\Rightarrow$ H1:将这7帧沿着5个维度进行分组灰度（gray），宽（gradient-x），高（gradient-y），光流x（optflow-x），光流y（optflow-y），前3个每一帧都进行获取，后两个每两帧进行获取，因此：
经过hardwired得到 FeatureMaps个数为((7-1)+1) $\times$ 3+((7-2)+1) $\times$ 2=（7+7+7+6+6）= 33，也就是整体为
H1的FeatureMap = 33 $\times$ 60 $\times$ 40

（3）H1---->C2:使用2个尺寸为[7,7,3]的3D卷积核（空间维度7×7，时间维度3）进行卷积可得到：
FeatureMaps个数为：(((7-3)+1) $\times$ 3+((6-3)+1) $\times$ 2) $\times$ 2= （5+5+5+4+4） $\times$ 2 = 23 $\times$ 2
宽高为：（60-7）+1=54，（40-7）+1=34
C2的FeatureMap = 23 $\times$ 2 $\times$ 54 $\times$ 34

（4）C2 ----->S3 进行下采样也就是pooling为 S3的FeatureMap = 23 $\times$ 2 $\times$ 27 $\times$ 17

（5）S3 ------>C4 ：使用6个尺寸为[7,6,3]的3D卷积核（空间维度7×6，时间维度3）进行卷积可得到：
FeatureMaps个数为：(((5-3)+1) $\times$ 3+((4-3)+1) $\times$ 2) $\times$ 6= （3+3+3+2+2） $\times$ 6 = 13 $\times$ 6
宽高为：（27-7）+1=21，（17-6）+1=12
C4的FeatureMap = 13 $\times$ 6 $\times$ 21 $\times$ 12

（6）C4 ----->S5 进行下采样也就是pooling为 S5的FeatureMap = 13 $\times$ 6 $\times$ 7 $\times$ 4

（7）S5 ------>C6 ：使用1个尺寸为[7,4]的3D卷积核（空间维度7×4）进行卷积可得到：
FeatureMaps个数为：128
宽高为：（7-7）+1=1，（4-4）+1=1
C4的FeatureMap = 13 $\times$ 6 $\times$ 1 $\times$ 1=128 $\times$ 1 $\times$ 1

（8）对于一个动作识别问题被分为3类，输出层可训练参数数为128 $\times$ 3 = 384

（9）对于卷积神经网络，有一个设计方法是：在离输出层距离较近的FeatureMap 个数应该增加（卷积核应该越往后越多），这样就可以从低级的FeatureMap的相互组合中产生更多类型和更高维的特征

四.Conclusion

整体来看特征图和大小来看2，归纳为下图：
在这里插入图片描述

761527200

发布了27 篇原创文章 · 获赞 81 · 访问量 5654

私信关注

3DCNN:3D Convolutional Neural Networks for Human Action Recognition

一.解决的问题

二.3D卷积神经网络

三.文本3D卷积网络图(注意下面数字的变化)

四.Conclusion

猜你喜欢