《ECO:Efficient Convolutional Network for Online Video Understanding》文献阅读

参考:https://zhuanlan.zhihu.com/p/36795554
本文仅供学习,如有侵权,请私聊


caffe源码
pytorch源码

1、Introduction

主要提出了两点:

  1. 使用单帧的图像,在很多情况下已经可以获得一个不错的初始分类结果了,而相邻帧间的很多信息都是冗余的。因此,ECO 中在一个时序邻域内仅使用单帧图像。
  2. 为了获得长时程的图像帧间的上下文关系,仅仅使用简单的分数融合(aggregation) 是不足够的。因此,ECO 中对较远帧之间采取对 feature map 进行 3D 卷积的方式进行 end-2-end 的融合。

2、主要工作

  1. 与TSN类似,我们从整个视频中抽取固定数量的帧来覆盖长期时间结构,以便理解视频。这样,采样帧跨越整个视频,与视频的长度无关。
  2. 与TSN不同的是,我们使用3D网络来学习帧间的关系,并在整个视频中跟踪它们。该网络经过端到端训练,以学习这种关系。
  3. 该网络直接提供视频级别的分数,不需要事后的特征聚合。

因此,即使在小型计算设备上,它也可以在线模式和实时运行

3、结构

在这里插入图片描述ECO网络的基本结构如上图所示,S1-SN是从视频中采样得到的N个RGB 的 segment。

  1. 对于每个segment,采用共享的2D卷积子网络 来得到96 个 2828大小的 feature map,堆叠后得到一个 N282896 大小的特征volume。此处使用的是BN-Inception 网络中的第一部分(到 inception-3c 层前)。
  2. 对于得到的特征volume,采用一个3D子网络进行处理,直接输出对应动作类别数目的一维向量。此处采用了3D-Resnet18[6]中的部分层。

如上的两部分,就构建了这篇文章中构建的第一种网络结果 ECO-Lite。除了用 3D 卷积进行融合,还可以同时使用2D卷积,如下图所示,即为 ECO-Full 网络结构。此处多的一个 2D 网络分支采用的是 BN-Inception 网络中 inception-4a 到最后一个 pooling 层间的部分,最后再采用average-pooling得到video-level的表示,与3D net的结果 concat 后再得到最后的action分类结果。
在这里插入图片描述

4、在线视频理解

在这里插入图片描述
在这里插入图片描述

5、实验

在这里插入图片描述在UCF101和HMDB51数据集上的表现,此处只使用RGB作为输入。
在这里插入图片描述在不考虑I/O读取时间的前提下的速度/精度比较。VPS(videos per second)指每秒处理多少段视频。此实验基于单卡Tesla P100
在这里插入图片描述不同采样帧下的精度性能对比。
在这里插入图片描述可视化时间精度效果,在UCF101数据集上。
在这里插入图片描述在线视频分类问题通常以 early action recognition 的形式来评估。如上图所示,横轴显示的是可以看到的视频的前百分之几,纵轴则是对应的精度。

6、总结

  1. 与TSN类似的视频帧采样
  2. 采用3D卷积做融合( two-stream 网络文章[7]中是用于 video clip 内的融合)
    直观的motivation+简单有效的框架设计

猜你喜欢

转载自blog.csdn.net/qq_18644873/article/details/85626712