《Action recognition by dense trajectories》论文笔记

为什么要用dense trajectories?
(1)在图像分类中,密集采样比稀疏感兴趣点的结果更好
(2)trajectories通常通过KLT tracker得到,而它是被设计来追踪稀疏感兴趣点的
(3)匹配密集SIFT descriptor计算量非常大
     本文提出了一种有效的,提取dense trajectories的方法。通过使用光流场来跟踪密集采样的点获得轨迹。跟踪点的数量可以容易地放大,因为已经计算了密集的流场。此外,在密集光流场中的点之间施加全局平滑度约束,这能导致比分别跟踪或匹配点更鲁棒的轨迹。运动是行动识别的最有说服力的提示,但它可能是由感兴趣的行为、背景或相机运动导致的,这是不可避免的,需要将行为运动和不相关的运动分开。
     dense trajectories是从多个空间尺度上提取的。特征点在网格上以W像素间隔被采样,并在每个尺度上分别被跟踪。通过实验,文章观察到采样步进大小W=5时,已经密集得能够获取好的结果。文章用了8个尺度空间,间隔系数为根号2分之一。每帧中的每个点都通过密集光流域中的中值滤波器被追踪到下一帧。Pt+1=(Xt+1.Yt+1)=(Xt,Yt)+(M*w)|(rounded position of Xt,Yt)这样做比双线性差值更鲁棒,特别是在运动边缘处。后续帧的点被级联以形成轨迹。
     跟踪中的一个常见问题是漂移。轨迹在跟踪期间往往偏离其初始位置。 为了避免这个问题,文章将轨迹的长度限制为L帧。 一旦轨迹超过长度L,它将从跟踪过程中移除。为了确保视频的密集覆盖,会在每个帧中验证密集网格中是否存在轨道。如果在W×W邻域中没有找到跟踪点,则将该特征点进行采样并添加到跟踪过程中。文章选择了L = 15帧的轨迹长度。另外,在没有任何结构的均匀图像区域中,无法正确对光流点追踪。
     当特征点被采样时,检查其自相关矩阵的较小特征值。 如果它低于阈值,则这一点不会包含在跟踪过程中。由于对于动作识别,文章主要对动态信息感兴趣,静态轨迹在预处理阶段被修剪。具有突然大位移的轨迹,最有可能是错误的,也被删除。
     轨迹的形状编码局部运动模式。给定长度为L的轨迹中,文章通过位移向量序列描述其形状。所得到的向量由位移向量的幅度之和归一化。
     文章还评估了多个时间尺度上的轨迹,以便以不同的速度识别动作。然而,这并没有改善实际的结果。 因此,文章在实验中使用固定长度L的轨迹。
     轨迹对齐描述子 围绕兴趣点计算的3D视频体中的局部描述子已经成为视频表示的流行方式。为了利用密集轨迹中的运动信息,在轨迹周围的时空体积内计算描述子。大小为N×N像素和L帧。为了将结构信息嵌入到表示中,体被细分为大小为nσ×nσ×nτ的时空网格。
     在现有的动作识别描述符中,HOG、HOF已经表现出对各种数据集的优异结果。 HOG(方向梯度直方图)侧重于静态的外观信息,而HOF(光流的直方图)捕获的局部运动信息。文章的做法是沿着密集的轨迹计算HOGHOF。 对于HOG和HOF,使用完全取向将取向量化为8个仓,对于HOF将取向量化为另外的零仓。两个描述符用其L 2范数归一化。
     光流计算绝对运动,这不可避免地包括相机运动。达拉尔提出了用于人类检测的MBH(运动边界直方图)描述符,其中为光流的水平和垂直分量分别计算导数。该描述符对像素之间的相对运动进行编码.
     MBH描述符将光流场分成其x和y分量。 对于它们中的每一个计算空间导数,并且类似于HOG描述符,方向信息被量化成直方图。我们为每个分量获得一个8-bin直方图,并用L 2范数分别对它们进行归一化。由于MBH表示光流的梯度,所以恒定运动信息被抑制,并且只保留关于流场变化的信息。与视频稳定和运动补偿相比,这是消除背景运动造成的噪音的简单方法。
     对于HOF和MBH描述符,文章复用已经计算出的密集光流来提取密集轨迹。 这使得算法的计算过程非常高效。

猜你喜欢

转载自blog.csdn.net/jshnaoko/article/details/80168576