《Stochastic Long-term Video Interpolation》& 《Structure Preserving Video Prediction》论文笔记

Stochastic Long-term Video Interpolation

背景

长期视频插值,也即视频帧率比较低的情况下,在较长的区间内进行视频插值。

主要工作

  1. 在视频预测中引入随机性
  2. 预测试不仅使用两端的视频帧,同时引入更远的视频帧(创新点)
  3. 为保证从两端开始预测时视频内容的一致性,结合前人提出的ConvLSTM和bi-direction RNN,提出网络RBConvLSTM(创新点)
  4. A movement weight mask in pixel loss is applied to help generate dynamics against the stale content.(不太理解)
  5. 提出新的评测视频一致性(coherency)的方法

主要方法

  1. Video Interpolation:使用前人提出的deep motion pixels transformation
  2. Deterministic Video Prediction:为了保证一致性,采用decomposition of the motion and content,同时使用ConvLSTM进行motion inference
  3. Stochastic Video Generation:类似于Alex的SAVP,包含一个确定性的预测和一个动态抽样

网络结构

- **Reference Module**:Extractor(Ext)计算动量(momentum)$C_{start}$和$C_{end}$,Encoder(E)编码,将他们送入RBConvLSTM迭代生成时刻 t 的编码 $\hat{h_t}$。RBConvLSTM可以保证两端的一致性。 - **Inference Module**:根据$h_{t-1}$和$\hat{h_t}$推断出一个分布$P_{infr}(z_t|X_{S:t-1},X_{WR})$ - **Posterior Module**:根据Ground Truth $h_t$ 生成一个后验分布$P_{pst}(z_t|X_{S:T})$,用以使Inference Module的输出更接近posterior distribution

注:图中所有的Encoder(E)拥有相同的参数,可以将输入图像编码为motion dynamic feature h t h_t 和 content residue c t n t ctn_t

训练和预测

  1. Training:从 P p s t P_{pst} 中抽样 z t p s t z_t^{pst} ,与 h t 1 h_{t-1} 一起送入 L S T M d y n LSTM_{dyn} ,经过Decoder(D),输出 X ~ t p s t \tilde{X}_t^{pst} ;从 P i n f r P_{infr} 中抽样 z t i n f r z_t^{infr} ,与 h t 1 h_{t-1} 一起送入相同的 L S T M d y n LSTM_{dyn} ,输出 X ~ t i n f r \tilde{X}_t^{infr}
  2. Inference:去掉Posterior Module

代价函数

L C = t = S + 1 T 1 [ β L 1 ( X t , X ~ t p s t ) + ( 1 β ) L 1 ( X t , X ~ t i n f r ) + α D K L ( P p s t P i n f r ) + γ D K L ( P i n f r P p s t ) ] L_C = \sum_{t=S+1}^{T-1} [\beta \cdot L_1(X_t, \tilde{X}_t^{pst}) + (1-\beta) \cdot L_1(X_t, \tilde{X}_t^{infr}) + \alpha \cdot D_{KL}(P_{pst}||P_{infr}) + \gamma \cdot D_{KL}(P_{infr}||P_{pst})]

想法

  1. 首先将图像分割为背景和运动的物体。利用输入的几帧图像反推摄像头的运动,结合图像语义分割,利用输入的几帧图像反推摄像头的运动,根据这个结果对背景进行预测。在采用另一个网络结构对运动的物体进行预测,比如ConvLSTM。

    问题是:

    1. 如何将图像分割得到的背景和物体分离开来送入不同的网络
    2. 图像分割的效果
    3. 结构的复杂度
    4. 这篇文章中提到有人论证视频预测中引入随机性能改善性能,如何引入随机性
  2. 首先利用输入的几帧图像计算动量等运动信息,利用图像语义分割,将各个块的边缘等保持,实现整块的运动预测

    问题是:

    1. 语义分割的效果,边缘效果
    2. 随机性

Structure Preserving Video Prediction

背景

视频预测中很难保持物体和人的结构信息,比如物体的轮廓信息、人体肢体动作信息

作者方法

采用了encoder-LSTM-decoder的结构。创新之处在于:

  1. 将高频和低频分离处理,用两个encoder通道和两个LSTM进行预测
  2. 根据临近帧信息动态改变LSTM中参数的权重,实现时间自适应预测模型(temeporal adaptive prediction module)

网络结构

  • 编码模块分为两部分,一部分直接将图片送入Encoder,另一部分先过一个滤波器(LoG),再送入Encoder,之后将二者编码的特征送给LSTM进行预测,将预测的特征融合后送入decoder
  • LSTM:各个权重通过一个卷积网络得到,随着时间动态更新,以实现时间自适应。采用seq-to-seq进行预测

训练

  • 第一步:只训练encoder和decoder
  • 第二步:同时训练encoder、decoder、prediction module,不过enc和dec的学习率设置的比较低

代价函数

L 1 = χ χ ^ 1 + H F ( χ ) H F ( χ ^ ) 1 L_1 = || \chi - \hat \chi ||_1 + || HF(\chi) - HF(\hat \chi) ||_1

L 2 = i = 1 N + M 1 ( χ i + 1 χ ^ 1 + F i + 1 F ^ i 1 + H F ( χ i + 1 ) H F ( χ ^ i ) 1 ) L_2 = \sum_{i=1}^{N+M-1} (|| \chi_{i+1} - \hat \chi ||_1 + || F_{i+1} - \hat F_i ||_1 + || HF(\chi_{i+1}) - HF(\hat \chi_i) ||_1)

L 3 = 1 N + M t = 1 N + M ( F t F ^ t 1 ) σ t h s 1 L_3 = \frac{1}{N+M} \sum_{t=1}^{N+M} || (|| F_t - \hat F_t ||_1) - \sigma_{ths} ||_1

L = λ 1 L 1 + λ 2 L 2 + λ 3 L 3 + λ 4 Θ 2 2 L = \lambda_1 L_1 + \lambda_2 L_2 + \lambda_3 L_3 + \lambda_4 \sum||\Theta||_2^2

  • L 1 L_1 是训练encoder-decoder网络的损失函数,其中HF代表滤波器
  • L 2 L_2 是针对预测网络的损失函数
  • L 3 L_3 是针对预测网络中LSTM提出的损失函数,目的是鼓励预测的特征与输入的特征有一定的差距,其中 σ t h s \sigma_{ths} 是预先设定好的固定值

猜你喜欢

转载自blog.csdn.net/weixin_41024483/article/details/82942655
今日推荐