翻译：Collaborative Spatiotemporal Feature Learning for Video Action Recognition

Collaborative Spatiotemporal Feature Learning for Video Action Recognition

视频动作识别的协同时空特征学习

论文地址：https://arxiv.org/pdf/1903.01197.pdf

作者：Chao Li, Qiaoyong Zhong, Di Xie, Shiliang Pu

本文为CVPR2019 录用论文「Collaborative Spatiotemporal Feature Learning for Video Action Recognition」，海康威视提出一种CoST网络，使用2D卷积而不是3D卷积来协作学习时空特征，并利用它们进行视频动作识别。

摘要

时空特征学习对于视频中的动作识别至关重要。现有的深度神经网络模型要么独立地学习空间和时间特征（C2D），要么与无约束参数（C3D）一起学习。在本文中，我们提出了一种新的神经运算，它通过对可学习参数施加权重共享约束来协同编码时空特征。特别地，我们沿着体积视频数据的三个正交视图执行2D卷积，其分别学习空间外观和时间运动线索。通过共享不同视图的卷积核，可以协作地学习空间和时间特征，从而彼此受益。随后通过加权求和将互补特征融合，其加权求和的系数是端对端学习的。我们的方法在大规模基准测试中实现了最先进的性能，并在2018年时刻挑战赛中获得第一名。此外，基于不同视图的学习系数，我们能够量化空间和时间特征。该分析揭示了模型的可解释性，也可能指导未来视频识别算法的设计。

1 介绍

最近，考虑到其在视频监控，人机交互和社交视频推荐等广泛应用中的潜力，视频动作识别已引起越来越多的关注。这项任务的关键在于联合时空特征学习。空间特征主要描述动作中涉及的对象的外观以及视频的每个帧内的场景配置。空间特征学习类似于静止图像识别，因此很容易受益于深度卷积神经网络（CNN）[13]带来的最新进展。而时间特征捕获随着时间的推移嵌入在演化帧中的运动提示。出现了两个挑战。一个是如何学习时间特征。另一个是如何正确融合空间和时间特征。

研究人员的第一个尝试是明确地和平行于空间信息建模时间运动信息。原始帧和相邻帧之间的光流被利用为深神经网络工作的两个输入流[23，6]。另一方面，作为2d ConvNets（C2D）静止图像识别的一个推广，提出了3d ConvNets（C3D)来处理三维立体视频数据[24]，C3D中，空间和时间特征被紧密地纠缠在一起，并被共同学习。也就是说，通过分布在整个网络上的三维卷积来学习联合时空特征，而不是分别学习时空特征并将其融合到网络顶部。考虑到CNN出色的特征表示学习能力，理想的情况下，C3D在视频理解上应该像C2D在图像识别上那样取得巨大的成功。然而，大量的模型参数和计算效率低下限制了C3D的有效性和实用性。

在本文中，我们提出了一种新颖的协作时空（CoST）特征学习操作，它与权重共享约束共同学习时空特征。给定3D体积视频张量，我们通过从不同角度观看它们，将其展平为三组2D图像。然后将2D卷积应用于每组2D图像。图1示出了来自示例性视频剪辑的三个视图的2D快照，其中一个人在体育场高跳。 H-W的视图是人类熟悉的自然景观。通过在时间T上从该视图逐帧扫描视频，我们能够理解视频内容。尽管来自涉及T（即T-W和T-H）的视图的快照难以为人类解释，但它们包含与正常H-W视图完全相同的信息量。更重要的是，丰富的运动信息嵌入在每个帧内而不是帧之间。因此，T-W和T-H视图的帧上的2D卷积能够直接捕获时间运动线索。如图2（c）所示，通过融合三个视图的互补空间和时间特征，我们能够使用2D卷积而不是3D卷积来学习时空特征。

图1 视频的三个视图的可视化，这激发了我们对协作时空特征学习的设计。左上H-W视图，右上T-H视图. 底部: T-W视图

图2 CoST与常见时空特征学习架构的比较， (a) C3D3×3×3. (b) C3D3×1×1. (c) CoST

值得注意的是，不同视图的卷积内核共享的原因如下。1）从不同视图的框架的可视化来看（见图1），它们的视觉外观是兼容的。例如，在时间视图（T-H和T-W）中也存在常见的空间模式，如边和颜色斑点。因此，同一组卷积核可以应用于不同视图的帧上。2）C2D网络中的卷积核本质上是冗余的，没有修剪[9，15，31]。而冗余核可以通过权值共享的方式进行时间特征学习。3）大大减少了模型参数的数量，使网络更容易训练，不易过度拟合，性能更好。此外，静态图像空间特征学习的成功（如精心设计的网络结构和预训练参数）可以很容易地转移到时间域。

不同视图的互补特征通过加权求和来融合。我们在每个视图中学习每个通道的独立系数，这使得网络可以按需处理空间或时间特征。此外，基于学习系数，我们能够量化空间域和时域的各自贡献。

基于CoST操作，我们构建卷积神经网络。我们今后将把操作和网络都称为CoST，它应该根据其上下文容易识别。与C2D相比，CoST可以共同学习时空特征。与C3D相比，CoST基于2D而不是3D卷积。 CoST基本上弥合了C2D和C3D之间的差距，从而保留了双方的优势，即C2D的紧凑性和C3D的表现能力。对于视频中的动作识别任务，实验表明CoST比C2D和C3D都具有更好的性能。

这项工作的主要贡献总结如下：

我们提出CoST，它使用2D卷积而不是3D卷积来协作学习时空特征。
据我们所知，这是第一个定量分析空间和时间特征对视频理解重要性的工作。
提出的CoST模型优于传统的C3D模型及其变体，在大规模基准测试中实现了最先进的性能。

2 相关工作

continue。。。

wechat-920086481

发布了7 篇原创文章 · 获赞 10 · 访问量 6890

私信关注

翻译：Collaborative Spatiotemporal Feature Learning for Video Action Recognition

猜你喜欢