《Action recognition by dense trajectories》论文笔记

为什么要用dense trajectories？

（1）在图像分类中，密集采样比稀疏感兴趣点的结果更好

（2）trajectories通常通过KLT tracker得到，而它是被设计来追踪稀疏感兴趣点的

（3）匹配密集SIFT descriptor计算量非常大

本文提出了一种有效的，提取dense trajectories的方法。通过使用光流场来跟踪密集采样的点获得轨迹。跟踪点的数量可以容易地放大，因为已经计算了密集的流场。此外，在密集光流场中的点之间施加全局平滑度约束，这能导致比分别跟踪或匹配点更鲁棒的轨迹。运动是行动识别的最有说服力的提示，但它可能是由感兴趣的行为、背景或相机运动导致的，这是不可避免的，需要将行为运动和不相关的运动分开。

dense trajectories是从多个空间尺度上提取的。特征点在网格上以W像素间隔被采样，并在每个尺度上分别被跟踪。通过实验，文章观察到采样步进大小W=5时，已经密集得能够获取好的结果。文章用了8个尺度空间，间隔系数为根号2分之一。每帧中的每个点都通过密集光流域中的中值滤波器被追踪到下一帧。Pt+1=(Xt+1.Yt+1)=(Xt,Yt)+(M*w)|(rounded position of Xt,Yt)这样做比双线性差值更鲁棒，特别是在运动边缘处。后续帧的点被级联以形成轨迹。

跟踪中的一个常见问题是漂移。轨迹在跟踪期间往往偏离其初始位置。为了避免这个问题，文章将轨迹的长度限制为L帧。一旦轨迹超过长度L，它将从跟踪过程中移除。为了确保视频的密集覆盖，会在每个帧中验证密集网格中是否存在轨道。如果在W×W邻域中没有找到跟踪点，则将该特征点进行采样并添加到跟踪过程中。文章选择了L = 15帧的轨迹长度。另外，在没有任何结构的均匀图像区域中，无法正确对光流点追踪。

当特征点被采样时，检查其自相关矩阵的较小特征值。如果它低于阈值，则这一点不会包含在跟踪过程中。由于对于动作识别，文章主要对动态信息感兴趣，静态轨迹在预处理阶段被修剪。具有突然大位移的轨迹，最有可能是错误的，也被删除。

轨迹的形状编码局部运动模式。给定长度为L的轨迹中，文章通过位移向量序列描述其形状。所得到的向量由位移向量的幅度之和归一化。

文章还评估了多个时间尺度上的轨迹，以便以不同的速度识别动作。然而，这并没有改善实际的结果。因此，文章在实验中使用固定长度L的轨迹。

轨迹对齐描述子围绕兴趣点计算的3D视频体中的局部描述子已经成为视频表示的流行方式。为了利用密集轨迹中的运动信息，在轨迹周围的时空体积内计算描述子。大小为N×N像素和L帧。为了将结构信息嵌入到表示中，体被细分为大小为nσ×nσ×nτ的时空网格。

在现有的动作识别描述符中，HOG、HOF已经表现出对各种数据集的优异结果。 HOG（方向梯度直方图）侧重于静态的外观信息，而HOF（光流的直方图）捕获的局部运动信息。文章的做法是沿着密集的轨迹计算HOGHOF。对于HOG和HOF，使用完全取向将取向量化为8个仓，对于HOF将取向量化为另外的零仓。两个描述符用其L 2范数归一化。

光流计算绝对运动，这不可避免地包括相机运动。达拉尔提出了用于人类检测的MBH（运动边界直方图）描述符，其中为光流的水平和垂直分量分别计算导数。该描述符对像素之间的相对运动进行编码.

MBH描述符将光流场分成其x和y分量。对于它们中的每一个计算空间导数，并且类似于HOG描述符，方向信息被量化成直方图。我们为每个分量获得一个8-bin直方图，并用L 2范数分别对它们进行归一化。由于MBH表示光流的梯度，所以恒定运动信息被抑制，并且只保留关于流场变化的信息。与视频稳定和运动补偿相比，这是消除背景运动造成的噪音的简单方法。

对于HOF和MBH描述符，文章复用已经计算出的密集光流来提取密集轨迹。这使得算法的计算过程非常高效。

《Action recognition by dense trajectories》论文笔记

猜你喜欢