视频数据增强 - VideoMix: Rethinking Data Augmentation for Video

文章目录

0. 前言

相关资料：
- arxiv
- github
- 论文解读
论文基本信息
- 领域：视频数据增强
- 作者单位：NAVER AI LAB（韩国最大搜索引擎公司）& 韩国科学技术院
- 发表时间：2020.12
一句话总结：印象中第一篇视频数据增强工作

1. 要解决什么问题

当前的视频分类模型存在过拟合的问题
- 模型学到的可能是背景或周围物体信息，而没有关注动作本身，这导致模型进入局部最优解。
目前的数据增强工作在静态图像领域，视频领域几乎没有什么工作。

2. 用了什么方法

本文提出了一种VideoMix方法
- 此方法对图像数据增强CutMix的扩展。
VideoMix的基本原理很简单
- 输入数据融合两个视频片段，输出结果也是融合两个视频片段。
- 输入数据怎么融合？
  - 与Mixup不同，Mixup是将两个视频片段的每个像素点按照一定比例融合。VideoMix是每个像素点要么属于片段A要么属于片段B。
  - 具体两个片段怎么拼成一个，后文介绍。
- 输出结果怎么融合？
  - 就是两个片段原始标签的加权和。权重就是两个片段各自的比例。
  - 结果是one-hot形式的。
- 详细定义可以参考下图原文，说得很清楚了
那两个视频片段要怎么融合呢？
- 三种融合方式，Spatial/Temporal/Spatio-Temporal，其实文字说起来不清楚，下面的图更清楚。
  - Spatial，空间融合，即融合后clip的每一帧都包含两个原始clip的信息。
  - Temporal，时间融合，即融合后clip的每一帧，要么属于输入clip A，要么属于输入 clip B
  - Spatio-Temporal，时空融合，即将一个clip B融合到Clip A的部分帧中。这个方式等价于与前文中提到的，“将图像增强领域的CutMix直接引入视频”。
实现细节：
- 需要随机选择区域，具体选择方法参考了CutMix
- 随机选择的参数包括中心点坐标以及长长宽。
- 更多细节参考论文原文
在部分应用中，很难直接对输入视频进行操作（比如已经实现提取好特征，要直接对特征进行处理）。这时候建议使用Tempoal VideoMix。

3. 效果如何

论文中的一些结论
- 效果如何？从训练结果看，val loss减少，val accuracy增加。
- VideoMix之后学到了什么信息？作者认为不仅学到了动作本身，还学到了动作发生的位置。
  - 如何验证？就是通过卷积神经网络可视化来实现。
评估了图像层面的数据增强方式直接应用到视频领域的效果
对比了VideoMix的集中不同的融合方式，空间融合效果最好
实验结果表明，在Kinetics-400/THUMOS14/AVA上，VideoMix都能提点