【ICCV2023】MMVP:基于运动矩阵的视频预测

论文链接:https://openaccess.thecvf.com/content/ICCV2023/html/Zhong_MMVP_Motion-Matrix-Based_Video_Prediction_ICCV_2023_paper.html

代码:https://github.com/Kay1794/MMVP-motion-matrix-based-video-prediction

引用:Zhong Y, Liang L, Zharkov I, et al. MMVP: Motion-Matrix-based Video Prediction[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 4273-4283.

16cb54e958ef4c76be57d804b4087dff.png

导读

本文讨论了视频预测领域的一个核心挑战,即在图像帧中推测对象的未来运动同时保持它们在各帧之间外观的一致性。为了解决这一问题,作者引入了一种端到端可训练的两流视频预测框架,称为“Motion-Matrix-based Video Prediction”(MMVP)。

与以往的方法不同,以往的方法通常在相同的模块内处理运动预测和外观维护,MMVP通过构建外观无关的运动矩阵来解耦运动和外观信息。这些运动矩阵表示输入帧中每对特征块的时间相似性,它们是MMVP中运动预测模块的唯一输入。这种设计提高了视频预测的准确性和效率,并降低了模型大小。

广泛的实验证明,MMVP在公共数据集上的表现优于最先进的方法,性能提升显著(在PSNR上提高了约1 dB,例如 UCF Sports数据集),而模型大小却显著减小(相当于84%或更小的模型尺寸)。

本文方法

402e1f06800aef5cb0f2d07b2457bbe1.png

给定一个视频序列

59445159bbd9934c1aafd03bbf0ca241.png
,其中 It 表示第t帧,通常是RGB格式。MMVP估计未来的T‘帧,即 2d1a851f734818e128ee0d836c7acca9.png

与已知的帧集相比,我们将估计的帧集表示为:

0569bdb258ced17b54a9d4f7cad33aea.png

该框架的训练仅由均方误差(MSE)损失来监督。MMVP 包括以下三个步骤:

  • 空间特征提取

  • 运动矩阵的构造和预测

  • 未来帧的合成和解码

步骤1:空间特征提取

空间特征提取涉及到MMVP框架的两个组成部分:图像编码器滤波器块

MMVP中的图像编码器 Ω 分别对从输入数据序列到相应特征的每个 Ii 进行编码。滤波器块Θ随后处理 fi,滤波器块的任务是滤除 fi 的运动不相关特征,以供后续的运动矩阵构建使用:

30047e46505884b470aef84c58b50663.png

我们使用一个具有残差的卷积网络(RRDBs)[44]来实现图像编码器,使用一个两层卷积网络来实现滤波器块。

步骤2:运动矩阵的构造和预测

MMVP基于特征对

3e6bbb421dba7ad8bb3d4fe62ab087bf.png
为每两个连续帧生成一组运动矩阵 2b9f27b72dd2ff15761c2b688b00180d.png
,这是通过计算每对特征块的余弦相似度来构建的。矩阵 892e5c30e00b6279dfec338084889d15.png
在位置 b2f71e9694deae74b66efa4efe1a5c6a.png
的元素表示为: 02db31955abfca8bd13b7fb9012f65ad.png

给定

e1d117dcb6575bf0af0003c1754f64aa.png
,矩阵预测函数 b956d9df41c528e5c09dd1e3f7a8a995.png
预测未来的矩阵 f8ddcb3018ac4e60af6723a246fa9b15.png

不同于预测连续帧之间的运动矩阵,这里预测了从最后观察到的帧

b3633e8576b2950fa20c410e82fbfea0.png
到每个未来帧 cebfbf591a45a1b3c8339dddbda5ef46.png
, 的运动矩阵,如下所示: 8743b2a9b14a5dc070a9e35bef161ef6.png

这个设计旨在减少特征合成过程中的累积误差,并通过表格 3 中的长期预测设置得到验证。

380bf38f321409ff3cf4d1300343cbeb.png
步骤3:未来帧的合成和解码

这一步骤通过使用观察到的信息和运动矩阵生成未来帧的信息。这一过程可以表示为:

ddaf1a7a8de7d03a0c3615a8e0e86099.png

与仅使用最后观察到的帧的信息不同,我们使用所有观察到的信息进行未来合成,并通过重复矩阵乘法来减小较早帧的权重。公式中的 X 代表过去帧的观察信息。这些信息可以是图像编码器不同尺度的输出特征

f599c182caef002ade2aa127c9f6dd30.png
,也可以是观察到的帧 1e26f160446d37d6df73a734aaf6f318.png

由于运动矩阵是从某个尺度的图像特征构建的,因此矩阵与某些特征之间可能存在不兼容性。为了实现运动矩阵与观察到的特征(任何尺度)或图像之间的矩阵乘法,作者借用了来自[39]的像素解缩。像素解缩操作将特征或图像重新整形成与运动矩阵相同的尺度,以进行矩阵乘法。然后,将矩阵乘法的结果重新整形为特征或图像的原始尺度。如图4,这整个过程涉及很少的信息损失。根据表格 6 的研究,我们可以看出多尺度特征合成设计通常在系统中使用更多尺度的特征时能够获得更好的性能。

解码过程采用了UNet的解码器结构,结合了RRDB块来实现MMVP的图像解码器。这一设计允许来自所有尺度的图像特征以及原始图像的合成特征对最终的输出做出贡献。在框架训练中,使用均方误差(MSE)损失来进行监督。

444453e43156448a1ea6876841859ee2.png

实验

数据集设置:

f815604d6ed09840fc326b4ba4858965.png
实验结果

与SOTA的比较

6f21be493b717317e657a909fcac64fb.png
ff3bf37e5a7cd3e1bb4cf735f590c0e7.png
d8eebf193d22bc896e4b2632f81045e0.png

预测的运动矩阵可视化结果:

d2df01dc4c574b507fb92af3df337b4d.png

UCF Sports 数据集的定性结果:

e12e16b56bc1e501599b319cb815d8b6.png
消融实验
33d893c360f705abe87638aa70a49adb.png
4fca681a89b4ef1dbd03a9d2cb77f10e.png

结论

本文提出的基于运动矩阵的视频预测框架(MMVP)是一个端到端可训练的双流管道。MMVP使用运动矩阵来表示与外观无关的运动模式。作为MMVP中运动预测模块的唯一输入,运动矩阵描述了特征块之间的多对多关系,无需训练额外的模块;通过矩阵乘法直观地组合了未来特征与多尺度图像特征,有助于运动预测更加集中,有效地减少了外观上的信息损失。通过广泛的实验证明,MMVP在模型大小和性能方面均优于现有的最先进方法。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

eba20b2b5b40bbfab052d8a0b9ab5e54.jpeg

猜你喜欢

转载自blog.csdn.net/woshicver/article/details/134389721