Stochastic Long-term Video Interpolation
背景
长期视频插值,也即视频帧率比较低的情况下,在较长的区间内进行视频插值。
主要工作
- 在视频预测中引入随机性
- 预测试不仅使用两端的视频帧,同时引入更远的视频帧(创新点)
- 为保证从两端开始预测时视频内容的一致性,结合前人提出的ConvLSTM和bi-direction RNN,提出网络RBConvLSTM(创新点)
- A movement weight mask in pixel loss is applied to help generate dynamics against the stale content.(不太理解)
- 提出新的评测视频一致性(coherency)的方法
主要方法
- Video Interpolation:使用前人提出的deep motion pixels transformation
- Deterministic Video Prediction:为了保证一致性,采用decomposition of the motion and content,同时使用ConvLSTM进行motion inference
- Stochastic Video Generation:类似于Alex的SAVP,包含一个确定性的预测和一个动态抽样
网络结构
- **Reference Module**:Extractor(Ext)计算动量(momentum)$C_{start}$和$C_{end}$,Encoder(E)编码,将他们送入RBConvLSTM迭代生成时刻 t 的编码 $\hat{h_t}$。RBConvLSTM可以保证两端的一致性。 - **Inference Module**:根据$h_{t-1}$和$\hat{h_t}$推断出一个分布$P_{infr}(z_t|X_{S:t-1},X_{WR})$ - **Posterior Module**:根据Ground Truth $h_t$ 生成一个后验分布$P_{pst}(z_t|X_{S:T})$,用以使Inference Module的输出更接近posterior distribution注:图中所有的Encoder(E)拥有相同的参数,可以将输入图像编码为motion dynamic feature 和 content residue
训练和预测
- Training:从 中抽样 ,与 一起送入 ,经过Decoder(D),输出 ;从 中抽样 ,与 一起送入相同的 ,输出
- Inference:去掉Posterior Module
代价函数
想法
-
首先将图像分割为背景和运动的物体。利用输入的几帧图像反推摄像头的运动,结合图像语义分割,利用输入的几帧图像反推摄像头的运动,根据这个结果对背景进行预测。在采用另一个网络结构对运动的物体进行预测,比如ConvLSTM。
问题是:
- 如何将图像分割得到的背景和物体分离开来送入不同的网络
- 图像分割的效果
- 结构的复杂度
- 这篇文章中提到有人论证视频预测中引入随机性能改善性能,如何引入随机性
-
首先利用输入的几帧图像计算动量等运动信息,利用图像语义分割,将各个块的边缘等保持,实现整块的运动预测
问题是:
- 语义分割的效果,边缘效果
- 随机性
Structure Preserving Video Prediction
背景
视频预测中很难保持物体和人的结构信息,比如物体的轮廓信息、人体肢体动作信息
作者方法
采用了encoder-LSTM-decoder的结构。创新之处在于:
- 将高频和低频分离处理,用两个encoder通道和两个LSTM进行预测
- 根据临近帧信息动态改变LSTM中参数的权重,实现时间自适应预测模型(temeporal adaptive prediction module)
网络结构
- 编码模块分为两部分,一部分直接将图片送入Encoder,另一部分先过一个滤波器(LoG),再送入Encoder,之后将二者编码的特征送给LSTM进行预测,将预测的特征融合后送入decoder
- LSTM:各个权重通过一个卷积网络得到,随着时间动态更新,以实现时间自适应。采用seq-to-seq进行预测
训练
- 第一步:只训练encoder和decoder
- 第二步:同时训练encoder、decoder、prediction module,不过enc和dec的学习率设置的比较低
代价函数
- 是训练encoder-decoder网络的损失函数,其中HF代表滤波器
- 是针对预测网络的损失函数
- 是针对预测网络中LSTM提出的损失函数,目的是鼓励预测的特征与输入的特征有一定的差距,其中 是预先设定好的固定值