TSN

  • 摘要

    • 解决问题

      • 用CNN框架有效提取video特征

      • 在UCF101等训练集受限的情况下训练网络

    • 贡献

      • TSN网络,基于长时间时序结构模型。稀疏时序采样策略,视频层监督有效学习整个视频。

      • HMDB51(69.4%),UCF101(94.2%)

  • 介绍

    • 动作识别有两个重要和补充的方面

      • appearance和dynamic

      • 是否有效提取了特征并充分利用了相关信息

      • 难点:image classification的难点。提取有效特征避开这些challenge并保留分类信息

    • CNN的局限

      • CNN网络关注于appearance和短时的motion,缺少处理长时间结构的能力

      • 目前密集间隔采样CNN方法尝试处理video

        • 长时间视频的计算量大,不能实时应用

        • 由于网络固定帧数的限制,视频过长会丢失重要信息

        • 需要大量的训练集,然而目前公开数据集在大小和多样性上受限很大,过拟合的风险

    • TSN

      • 在双流的基础上采用稀疏采样:k=7或9更好,不是论文中的3

        • 连续帧有高度的冗余性相似性,密集采样是不需要的

        • 省时,省计算

        • 不受帧长限制可以学习整个视频

      • 数据处理

        • 多种输入形式预训练:单一rgb,叠加rgb,叠加光流场,叠加形变光流场

        • 正则化

        • 数据增强

    • CNN for Action Recognition

      • 深度CNN   Karpathy

      • 双流网络 appearance + motion 缺点:单帧,短时间多帧,复杂运动及跨时间多阶段动作很难处理

      • C3D   Tran

      • FCN 分解卷积

      • (受限于固定长度的帧,不能处理过长的整个视频)

    • 时序结构模型

      • ASM 标注视频的原子动作

      • 隐变量做复杂动作的时域分解,迭代方法隐SVM学习模型参数

      • LHM SGM 分层模型和分割模型

      • SSM 序列骨架模型

      • bag of visual words 视觉词袋模型

      • (都不是端到端的模型)

  • BN-Inception 结合 双流网络

  • TSN

    • 双流的缺陷:空域-RGB单帧,时域-短的snippet堆叠帧

猜你喜欢

转载自www.cnblogs.com/demian/p/9616211.html
TSN