从0单排:学风侏儒——GCN论文:Graph Convolutional Label Noise Cleaner: Train a Plug-and-play Action Classifier for Anomaly Detection

cvpr 2019,竟然和视频异常检测这个比较小的领域有关,挺有意思

  • 问题:弱标签视频异常检测(只有视频级标签)在先前的工作中被定义为一个典型的多实例学习问题 multi-instance learning problem,将视频作为一个bag,包含被认为实例的片段。作者将其转换为在Noisy labels下的监督学习问题。noise labels 指的是在异常视频中正常片段的错误标注。
  • 挑战:在 Noisy labels 的情况下,只要能清理这些noisy label, 就可以直接在弱监督异常检测的情况下采用一个全监督动作分类器。
  • 创新:采用GCN来矫正noisy label。基于特征相似性和时序连续性,会逐渐将高置信度片段的监督信号传播到低置信度的样本。采用单一模型,而没有预处理的过程,使得模型更便捷和高校。
    GCN
    包含了两个阶段:Cleaning 和 Classification,training时这两个阶段不断执行直到收敛。在testing时,不再需要cleaner,而是直接获取分类器效果:
    1. Cleaning阶段,训练一个清理器 cleaner 来纠正从分类器获得的噪音预测,提供精炼后的标签:通过高置信度预测检验低置信度预测。采用一个GCN来建立高置信度和低置信度片段之间的关系。一共有两种图,一个是利用特征相似性,另一个利用时间连续性,从这两个维度解决伪标签问题。在图中,片段被抽象为顶点,异常信息在边上传播。利用特征相似度和时间连续性来纠正label。
      GCN
    2. Classification阶段:动作分类器用cleaned labels 重训练动作分类器,生成更可靠地预测。3D-conv结构的C3D和双流结构的TSN。
  • 实验:实验部分,可以看到,双流RGB效果是最好的,C3D次之,最差的是双流Optical。在消融实验中,Feature Similarity部分比Temporal Consistency起到的作用更重要。不过其实两者效果差不太多。

猜你喜欢

转载自www.cnblogs.com/LeeGoHigh/p/11221587.html