3DCNN:3D Convolutional Neural Networks for Human Action Recognition

一.解决的问题

1.卷积神经网络(CNNs)是一种能够直接作用于原始输入的深度学习模型,从而实现了特征构建过程自动化。
2.这些模型目前仅限于处理2D输入。在这篇论文中,我们开发了一个新颖的3D CNN动作识别模型。
3.该模型通过三维卷积从空间和时间两方面提取有限元数据,从而捕获多个相邻帧的运动信息。所建立的模型从输入帧中生成多个信息通道,通过对各通道的信息进行融合得到最终的特征表示。将所建立的模型应用于现实环境中对人的行为进行识别

二.3D卷积神经网络

1. 2D卷积计算公式:
在这里插入图片描述
(1)第i层第j个feature map中(x,y)位置的输出值,记为 V i j x y V^{xy}_{ij}
(2) P i P_i Q i Q_i 分别是核的高度和宽度。
(3) W i j k p q W^{pq}_{ijk} 是内核连接到第k个feature map的位置(p,q)处的值。

2. 2D和3D卷积的区别
如下图所示3D卷积在temporal维度上每3个作为一个卷积核的输出,组成一个cube

在这里插入图片描述
在这里插入图片描述

3. 3D卷积计算公式
在这里插入图片描述
(1)其中R i是沿时间维的三维核的大小
(2) w i j m p q r w^{pqr}_{ijm} 是上一层第m个feature map的kernel的第(p,q,r)的值

三.文本3D卷积网络图(注意下面数字的变化)

在这里插入图片描述
(1)input:连续7帧的60*40的图片,也就是咱们的 batchsize × \times channel × \times width × \times high × \times frame

(2)input h a r d w i r e d hardwired\Rightarrow H1:将这7帧沿着5个维度进行分组 灰度(gray),宽(gradient-x),高(gradient-y),光流x(optflow-x),光流y(optflow-y),前3个每一帧都进行获取,后两个每两帧进行获取,因此:
经过hardwired得到 FeatureMaps个数为((7-1)+1) × \times 3+((7-2)+1) × \times 2=(7+7+7+6+6)= 33,也就是整体为
H1的FeatureMap = 33 × \times 60 × \times 40

(3)H1---->C2:使用2个尺寸为[7,7,3]的3D卷积核(空间维度7×7,时间维度3)进行卷积可得到:
FeatureMaps个数为 :(((7-3)+1) × \times 3+((6-3)+1) × \times 2) × \times 2= (5+5+5+4+4) × \times 2 = 23 × \times 2
宽高为:(60-7)+1=54,(40-7)+1=34
C2的FeatureMap = 23 × \times 2 × \times 54 × \times 34

(4)C2 ----->S3 进行下采样也就是pooling为 S3的FeatureMap = 23 × \times 2 × \times 27 × \times 17

(5)S3 ------>C4 :使用6个尺寸为[7,6,3]的3D卷积核(空间维度7×6,时间维度3)进行卷积可得到:
FeatureMaps个数为 :(((5-3)+1) × \times 3+((4-3)+1) × \times 2) × \times 6= (3+3+3+2+2) × \times 6 = 13 × \times 6
宽高为:(27-7)+1=21,(17-6)+1=12
C4的FeatureMap = 13 × \times 6 × \times 21 × \times 12

(6)C4 ----->S5 进行下采样也就是pooling为 S5的FeatureMap = 13 × \times 6 × \times 7 × \times 4

(7)S5 ------>C6 :使用1个尺寸为[7,4]的3D卷积核(空间维度7×4)进行卷积可得到:
FeatureMaps个数为 :128
宽高为:(7-7)+1=1,(4-4)+1=1
C4的FeatureMap = 13 × \times 6 × \times 1 × \times 1=128 × \times 1 × \times 1

(8)对于一个动作识别问题被分为3类,输出层可训练参数数为128 × \times 3 = 384

(9)对于卷积神经网络,有一个设计方法是:在离输出层距离较近的FeatureMap 个数应该增加(卷积核应该越往后越多),这样就可以从低级的FeatureMap的相互组合中产生更多类型和更高维的特征

四.Conclusion

整体来看特征图和大小来看2,归纳为下图:
在这里插入图片描述

发布了27 篇原创文章 · 获赞 81 · 访问量 5654

猜你喜欢

转载自blog.csdn.net/qq_39426225/article/details/102143832