本文来自TCSVT 2020的论文《Convolutional Neural Network Based Bi-Prediction Utilizing Spatial and Temporal Information in Video Coding 》

介绍

本文提出用于帧间双向加权预测的CNN，称为STCNN ，和之前工作不同的是，本文引入了空间相邻重建像素和参考帧的时间显示顺序作为额外信息，作者认为基于空域中相邻像素的高度相关性，引入当前块的空间相邻像素可以减少由块级运动补偿引起的块伪影。其次，当前帧和参考帧之间的时间距离的绝对值可以反映视频帧相关性的能力，即更接近当前帧的参考帧通常与当前帧具有更高的相关性，有助于提高预测信号的准确性。

网络结构

STCNN网络结构如下所示，包括神经网络六层卷积网络，除最后一层外，前五层的激活函数都是Relu。网络的输入是5通道的张量，如下图所示，包括了参考块，空域参考像素和时间距离。具体地，F块表示List 0方向的参考块，B块表示List 1方向的参考块，P块表示参考块F和参考块B平均得到的预测块；POCc是当前块的POC块，POC0是List 0方向参考帧的POC号，POC1是List 1方向参考帧的POC号。L是F块的相邻K行K列的像素；S是当前待预测块的相邻K行K列的像素；Q是B块相邻K行K列的像素。网络将P块用于skip connection，与网络的输出相加。

网络输入张量的D1通道是POCc – POC0，C1通道是F参考块及其相邻像素，C2通道为P块和当前块相邻重建像素拼接而成；C3通道是B块及其相邻像素；D2通道为POCc – POC1。

由于网络的输入包括空域相邻像素，需要对网络最后一个卷积层的输入进行crop操作，再将其与P块相加。

将训练数据进行下采样和裁剪，进行数据增强；归一化到[-0.5,0.5]，作为网络的输入；将POC差做成和输入patch相同大小的map；

MSE Loss作为损失函数：

集成到HEVC中

HM中PU划分有如下多种情况，但考虑到需要用到相邻重建像素，仅对NxN PU应用STCNN。为了降低复杂度，仅在加权融合时应用STCNN，运动估计过程保持不变。

有两种集成方式，一种是编码端通过RDO决策使用STCNN还是传统平均加权；一种是STCNN直接替代传统平均加权，本文通过实验表明，直接替代的性能要优于竞争方案。

实验

1. 空域相邻像素的有效性

本文探讨了对于不同的块大小，引入空域相邻像素的有效性，如下图所示，当引入空域相邻像素时，网络收敛性能提升，表明引入空间信息对于提高预测精度是有效的；对于较小尺寸的块，这种改进更为显著，这意味着通过引入空间信息来提高精度对于较小的块更为明显。

下图还展示对于不同块大小，引入空域相邻像素的步长(即k值)对性能的影响，对于8×8块，不同的k值实现了相似的预测精度改进。对于16×16块和64×64块，k为2和4时分别稍好一些。对于32×32块，k为4时明显更好。因此，在本文中，k = 4。

2. 不同块尺寸的性能

本文探讨了不同块大小的压缩性能，通过性能对比发现，引入8x8块并未带来太多增益，相反导致复杂度更高，因此本文仅对16x16、32x32和64x64大小的块应用STCNN。

3. 额外信息的有效性

本文探讨了空域信息（空间相邻像素）和时域信息（时间距离）的有效性，如下图所示（Anchor是网络仅输入两个参考块），可以发现空域信息和时域信息都有助于提高压缩性能，同时，时间距离的符号也有一定指导意义。

4. 实验结果

STCNN在HM16.15的性能

TCSVT-2020-基于卷积神经网络的时空信息双向预测

介绍