Stochastic Long-term Video Interpolation

背景

长期视频插值，也即视频帧率比较低的情况下，在较长的区间内进行视频插值。

主要工作

在视频预测中引入随机性
预测试不仅使用两端的视频帧，同时引入更远的视频帧（创新点）
为保证从两端开始预测时视频内容的一致性，结合前人提出的ConvLSTM和bi-direction RNN，提出网络RBConvLSTM（创新点）
A movement weight mask in pixel loss is applied to help generate dynamics against the stale content.（不太理解）
提出新的评测视频一致性（coherency）的方法

主要方法

Video Interpolation：使用前人提出的deep motion pixels transformation
Deterministic Video Prediction：为了保证一致性，采用decomposition of the motion and content，同时使用ConvLSTM进行motion inference
Stochastic Video Generation：类似于Alex的SAVP，包含一个确定性的预测和一个动态抽样

网络结构

- **Reference Module**：Extractor（Ext）计算动量（momentum）$C_{start}$和$C_{end}$，Encoder（E）编码，将他们送入RBConvLSTM迭代生成时刻 t 的编码 $\hat{h_t}$。RBConvLSTM可以保证两端的一致性。 - **Inference Module**：根据$h_{t-1}$和$\hat{h_t}$推断出一个分布$P_{infr}(z_t|X_{S:t-1},X_{WR})$ - **Posterior Module**：根据Ground Truth $h_t$ 生成一个后验分布$P_{pst}(z_t|X_{S:T})$，用以使Inference Module的输出更接近posterior distribution

注：图中所有的Encoder(E)拥有相同的参数，可以将输入图像编码为motion dynamic feature $h_t$ 和 content residue $ctn_t$

训练和预测

Training：从 $P_{pst}$ 中抽样 $z_t^{pst}$ ，与 $h_{t-1}$ 一起送入 $LSTM_{dyn}$ ，经过Decoder(D)，输出 $\tilde{X}_t^{pst}$ ；从 $P_{infr}$ 中抽样 $z_t^{infr}$ ，与 $h_{t-1}$ 一起送入相同的 $LSTM_{dyn}$ ，输出 $\tilde{X}_t^{infr}$
Inference：去掉Posterior Module

代价函数

$L_C = \sum_{t=S+1}^{T-1} [\beta \cdot L_1(X_t, \tilde{X}_t^{pst}) + (1-\beta) \cdot L_1(X_t, \tilde{X}_t^{infr}) + \alpha \cdot D_{KL}(P_{pst}||P_{infr}) + \gamma \cdot D_{KL}(P_{infr}||P_{pst})]$

想法

首先将图像分割为背景和运动的物体。利用输入的几帧图像反推摄像头的运动，结合图像语义分割，利用输入的几帧图像反推摄像头的运动，根据这个结果对背景进行预测。在采用另一个网络结构对运动的物体进行预测，比如ConvLSTM。
问题是:
1. 如何将图像分割得到的背景和物体分离开来送入不同的网络
2. 图像分割的效果
3. 结构的复杂度
4. 这篇文章中提到有人论证视频预测中引入随机性能改善性能，如何引入随机性
首先利用输入的几帧图像计算动量等运动信息，利用图像语义分割，将各个块的边缘等保持，实现整块的运动预测
问题是：
1. 语义分割的效果，边缘效果
2. 随机性

Structure Preserving Video Prediction

背景

视频预测中很难保持物体和人的结构信息，比如物体的轮廓信息、人体肢体动作信息

作者方法

采用了encoder-LSTM-decoder的结构。创新之处在于：

将高频和低频分离处理，用两个encoder通道和两个LSTM进行预测
根据临近帧信息动态改变LSTM中参数的权重，实现时间自适应预测模型（temeporal adaptive prediction module）

网络结构

编码模块分为两部分，一部分直接将图片送入Encoder，另一部分先过一个滤波器(LoG)，再送入Encoder，之后将二者编码的特征送给LSTM进行预测，将预测的特征融合后送入decoder
LSTM：各个权重通过一个卷积网络得到，随着时间动态更新，以实现时间自适应。采用seq-to-seq进行预测

训练

第一步：只训练encoder和decoder
第二步：同时训练encoder、decoder、prediction module，不过enc和dec的学习率设置的比较低

代价函数

$L_1 = || \chi - \hat \chi ||_1 + || HF(\chi) - HF(\hat \chi) ||_1$

$L_2 = \sum_{i=1}^{N+M-1} (|| \chi_{i+1} - \hat \chi ||_1 + || F_{i+1} - \hat F_i ||_1 + || HF(\chi_{i+1}) - HF(\hat \chi_i) ||_1)$

$L_3 = \frac{1}{N+M} \sum_{t=1}^{N+M} || (|| F_t - \hat F_t ||_1) - \sigma_{ths} ||_1$

$L = \lambda_1 L_1 + \lambda_2 L_2 + \lambda_3 L_3 + \lambda_4 \sum||\Theta||_2^2$

$L_1$ 是训练encoder-decoder网络的损失函数，其中HF代表滤波器
$L_2$ 是针对预测网络的损失函数
$L_3$ 是针对预测网络中LSTM提出的损失函数，目的是鼓励预测的特征与输入的特征有一定的差距，其中 $\sigma_{ths}$ 是预先设定好的固定值