视频数据增强 - VideoMix: Rethinking Data Augmentation for Video

0. 前言

  • 相关资料:
    • arxiv
    • github
    • 论文解读
  • 论文基本信息
    • 领域:视频数据增强
    • 作者单位:NAVER AI LAB(韩国最大搜索引擎公司)& 韩国科学技术院
    • 发表时间:2020.12
  • 一句话总结:印象中第一篇视频数据增强工作

1. 要解决什么问题

  • 当前的视频分类模型存在过拟合的问题
    • 模型学到的可能是背景或周围物体信息,而没有关注动作本身,这导致模型进入局部最优解。
  • 目前的数据增强工作在静态图像领域,视频领域几乎没有什么工作。

2. 用了什么方法

  • 本文提出了一种VideoMix方法
    • 此方法对图像数据增强CutMix的扩展。
  • VideoMix的基本原理很简单
    • 输入数据融合两个视频片段,输出结果也是融合两个视频片段。
    • 输入数据怎么融合?
      • 与Mixup不同,Mixup是将两个视频片段的每个像素点按照一定比例融合。VideoMix是每个像素点要么属于片段A要么属于片段B。
      • 具体两个片段怎么拼成一个,后文介绍。
    • 输出结果怎么融合?
      • 就是两个片段原始标签的加权和。权重就是两个片段各自的比例。
      • 结果是one-hot形式的。
    • 详细定义可以参考下图原文,说得很清楚了image-20210130155316137
  • 那两个视频片段要怎么融合呢?
    • 三种融合方式,Spatial/Temporal/Spatio-Temporal,其实文字说起来不清楚,下面的图更清楚。
      • Spatial,空间融合,即融合后clip的每一帧都包含两个原始clip的信息。
      • Temporal,时间融合,即融合后clip的每一帧,要么属于输入clip A,要么属于输入 clip B
      • Spatio-Temporal,时空融合,即将一个clip B融合到Clip A的部分帧中。这个方式等价于与前文中提到的,“将图像增强领域的CutMix直接引入视频”。
    • image-20210130160034279
  • 实现细节:
    • 需要随机选择区域,具体选择方法参考了CutMix
    • 随机选择的参数包括中心点坐标以及长长宽。
    • 更多细节参考论文原文image-20210130170738891
  • 在部分应用中,很难直接对输入视频进行操作(比如已经实现提取好特征,要直接对特征进行处理)。这时候建议使用Tempoal VideoMix。

3. 效果如何

  • 论文中的一些结论

    • 效果如何?从训练结果看,val loss减少,val accuracy增加。image-20210130171046167
    • VideoMix之后学到了什么信息?作者认为不仅学到了动作本身,还学到了动作发生的位置。
      • 如何验证?就是通过卷积神经网络可视化来实现。
  • 评估了图像层面的数据增强方式直接应用到视频领域的效果

    • image-20210130145953863
  • 对比了VideoMix的集中不同的融合方式,空间融合效果最好

    • image-20210130160516659
  • 实验结果表明,在Kinetics-400/THUMOS14/AVA上,VideoMix都能提点

    • image-20210130171504601image-20210130171515528
    • image-20210130171442631
    • image-20210130171431983

4. 还存在什么问题&可借鉴之处

  • 这种数据增强方式其实还是比较容易想到的(看到这篇论文的时候有点难过……唉),后续有可能会复现一下。

猜你喜欢

转载自blog.csdn.net/irving512/article/details/113442209
今日推荐