时序行为检测论文笔记（三）：TCN

摘要:

1.提出了一种时间上下文网络（TCN），用于人类活动的预先定位。类似于Faster RCNN架构，proposal以等间隔放置在跨越多个时间尺度的视频中。

2.由于仅在一个段内部汇集功能并不足以预测活动边界，因此构造一个表示，该表示明确捕获用于对其排名的proposal的上下文，对于每一个时间片段，将特征在一对尺度上均匀采样并且输入到时间卷积神经网络用于分类。

（性能优于CDC）

1.介绍

通过以等时间间隔在跨越多个时间尺度的视频中放置proposal，构建了一组proposal，然后使用成对尺度采样的特征对提议进行排序。对这些特征应用时间卷积网络来学习背景和前景概率。然后将排名最高的proposal输入到分类网络，该分类网络将各个分类概率分配给每个分段proposal。

三、方法

给定由T帧组成的视频V，TCN生成分段S1，S2，...，SN的分级列表，每个分段与分数相关联。每个段Sj是一个元组Tb，Te，其中Tb和Te表示段的开始和结束。对于每一帧，我们计算一个使用深度神经网络生成的D维特征向量表示。我们的方法概述如图2所示。

3.1候选框生成

在这一步中的目标是使用少量proposal来获得高召回率。首先，我们采用一个固定长度的L帧的时间滑动窗口，其中50％重叠。假设每个视频V具有M个窗口位置。对于位置i（i 属于 [0，M]）上的每个窗口，其持续时间被指定为元组（bi，ei），其中bi和ei表示段的开始和结束。然后，我们在每个位置i生成K个proposal细分（以K不同比例）。对于k 属于 [1，K]，分段由（bki，eki）表示。而且，每个段的持续时间Lk以2的幂增加，即。这允许我们覆盖所有可能包含兴趣活动的候选活动位置，并且我们将它们称为活动proposal，。图1显示了时间proposal的生成。当proposal片段符合视频的边界时，我们使用zero-padding。

3.2 文本特征表示

我们接下来构建排名proposal的功能表示。我们使用未修剪视频的所有特征F = {f1，f2，...，fm}作为视频的特征表示。对于窗口位置i（Pi，k）处的第k个proposal，我们对F进行均匀采样以获得D维特征表示Zi，k = {z1，z2，...，zn}。这里，n是从每个片段采样的特征的数量。为了捕获时间上下文，我们再次从F中一致地采样特征，但是这次，从（Pi，k + 1） - 下一个比例的proposal并以相同比例为中心。请注意，我们不执行平均或最大池化，而是取样固定数量的帧，而不管Pi，k的持续时间。从逻辑上讲，proposal可以分为四类：
•它与地面真实间隔不相交，因此下一个尺度的（更大的）标签是不相关的
•它包括一个地面真值间隔，下一个尺度与该地面真值间隔部分重叠。
•它包含在地面真值间隔中，下一个层次与背景有明显的重叠（即大于地面真值间隔）。
•它包含在地面真相间隔中，下一层也是如此。

仅考虑proposal内的特征的表示不会考虑最后两种情况。因此，只要proposal处于活动时间间隔内，就不可能仅通过考虑proposal内的功能来确定活动的结束位置。因此，使用基于上下文的表示对于活动的时间定位至关重要。此外，根据当前和下一个衡量标准覆盖的背景的多少，可以确定proposal是否是合适的候选者。

3.3 采样和时间卷积

为了训练proposal网络，根据以下式子作为指定标签：

其中iou（·）是交叠重叠的交点，GT是地面真值间隔。在训练期间，我们构建了一个有1024个提案的迷你批次，其正负比率为1：1。

给定一对来自两个连续尺度的特征，我们将时间卷积分别应用于每个时间尺度采样的特征，以获取尺度之间的上下文信息，如图2所示。时间卷积神经网络 [16]加强时间一致性，并获得静态图像检测一致的性能改进。为了跨越尺度汇总信息，我们连接这两个特征以获得固定的三维表示。最后，使用两个完全连接的层来跨越尺度捕获上下文信息。最后使用双向Softmax层，然后是交叉熵损失，将预测映射到标签（proposal与否）。

3.4 分类

给出一个高分的proposal，我们需要预测它的行动类别。我们通过使用双线性汇聚计算每个片段特征的外积，并将它们平均汇集以获得双线性矩阵双线性（·）。给定特征Z = [z1，z2，... zl]，我们进行如下的双线性汇聚：

为了进行分类，我们汇集了片段内的所有特征并且不执行任何时间采样。我们通过带符号平方根和l2归一化的映射函数传递这个向量化的双线性特征x =双线性（Z）[24]：

我们最后应用完全连接的层，并在末尾使用201维（200个动作类别加背景）Softmax层来预测类别标签。我们再次使用交叉熵损失函数进行训练。在训练期间，我们抽取了1024个proposal来构建一个小批量。为了平衡训练，在每个小批次中选择64个样本作为背景。为了给视频片段分配标签，我们使用用于生成proposal的相同功能，

其中iou（·）是工会重叠的交点，GT是地面实况，lb是提案Sj中最主要的类别。我们将这个分类器用于ActivityNet数据集，但也可以用其他分类器替换。

时序行为检测论文笔记（三）：TCN

猜你喜欢