CTAP: Complementary Temporal Action Proposal Generation

互补时域动作提名生成

这里的互补是指actionness score grouping 和 sliding window ranking这两种方法提proposal的结合,这两种方法各有利弊,形成互补。

滑窗均匀覆盖所有的视频片段,但时域边界不准确,聚合方法可能更准确但当actionness score比较低的时候,也会漏掉一些proposal。

整体思路:

actionness score proposal训好的PATE网络作用在滑窗proposal,以此来收集不能被actionness score grouping方法正确处理的proposal。

这些proposal经过时域卷积用于proposal ranking和边界回归。

三种主流方法:

第一种方法的缺点是边界不准,当收集大量proposal时才会产生较高的recall。

第二种方法在更细的粒度上(unit / snippet)训练二分类器,产生actionness score。TAG算法是merge的处理算法,源自watershed算法,用于将连续的高分区域聚合成proposal,避开的硬阈值聚合的缺点,是ssn那篇文章提出的方法。边界更加准确。当这种方法有两个常见的缺点:

1. 在背景片段产生高分响应,导致fp。

2. 在动作片段产生低分响应,导致低recall。

解决方案:

缺点1的方案. actionness proposal是细粒度的,边界更加准确。window-level ranking 加入了全局上下文信息而更有区分性。

window-level分类器用于TAG后处理,proposal排序和边界回归。

扫描二维码关注公众号,回复: 3392695 查看本文章

缺点2的方案. 滑窗均匀覆盖了视频的所有片段。

适应性的选择滑窗产生的proposal来弥补actionness遗漏的proposal

CTAP:

产生actionness proposals和滑窗proposals,用proposal互补分类器从滑窗proposal中选择漏掉的正确proposal,这个两类分类器用于区分proposal被actionness和TAG正确检测到。最后一步是proposal ranking和时域边界微调。相比作者的另一篇TURN中的简单时域平均池化,这里使用了时域卷积。可以有效的保存顺序信息

猜你喜欢

转载自www.cnblogs.com/demian/p/9717872.html