循环神经网络和广义分裂归一化的图像压缩(Image Compression with Recurrent Neural Network and Generalized Divisive Normal)

论文地址

   论文地址

代码地址

   代码地址
   代码的修改参考我之前写的,两个都差不多。
    代码修改

论文解读

概要

    该文提出了两种有效的新编解码块:采用卷积层和Generalized Divisive Normalization(GDN)的分析(analysis)和合成块(synthesis)。该文的网络利用pixel RNN方法进行量化。此外,为了改进整个网络,我们使用LSTM细胞对残差图像进行编码,以减少不必要的信息。

GDN

   其中使用的GDN是2015年Density Modeling of Images using a Generalized Normalization Transformation提出来的,GDN可以看做是更适合图像重建的BN层。GDN在这篇文章被使用后,因为效果不错,做end-to-end图像压缩的也都跟着用。
   之前大多数压缩方法都是建立在正交线性变换基础上,目的是为了降低数据间的相关性,从而简化后续的熵编码。但是线性变换输出之间的联合统计特性展现了很强的高阶依赖。这个问题可以通过使用局部增益控制操作(最早来源于生物神经元领域)来很好地解决,于是作者使用了他自己之前提出的 GDN 模型来替代线性变换(在那篇文章中作者已经验证了GDN具有很好的高斯化图像数据的能力)。

为什么要归一化

   神经网络学习过程的本质就是为了学习数据分布,如果我们没有做归一化处理,那么每一批次训练数据的分布不一样,从大的方向上看,神经网络则需要在这多个分布中找到平衡点,从小的方向上看,由于每层网络输入数据分布在不断变化,这也会导致每层网络在找平衡点,显然,神经网络就很难收敛了。当然,如果我们只是对输入的数据进行归一化处理(比如将输入的图像除以255,将其归到0到1之间),只能保证输入层数据分布是一样的,并不能保证每层网络输入数据分布是一样的,所以也需要在神经网络的中间层加入归一化处理。
   归一化后有什么好处呢?原因在于神经网络学习过程本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低;另外一方面,一旦每批训练数据的分布各不相同(batch 梯度下降),那么网络就要在每次迭代都去学习适应不同的分布,这样将会大大降低网络的训练速度,这也正是为什么我们需要对数据都要做一个归一化预处理的原因。
   对于深度网络的训练是一个复杂的过程,只要网络的前面几层发生微小的改变,那么后面几层就会被累积放大下去。一旦网络某一层的输入数据的分布发生改变,那么这一层网络就需要去适应学习这个新的数据分布,所以如果训练过程中,训练数据的分布一直在发生变化,那么将会影响网络的训练速度。

GDN的定义和优点

   注意,GDN本质也是一种归一化方法,但和经常在神经网络里看到的BN不是同一类型的归一化。BN是针对一个batch里的数据进行归一化和尺度操作,且网络训练完成后BN的尺度参数也固定了,这就是一个完全关于归一化数据的仿射变换,BN数学公式描述如下:
在这里插入图片描述
   而GDN的归一化和尺度操作对整幅图像都是一致的,相当于一种空间自适应的归一化操作,而且GDN是非线性的,其公式描述如下:
在这里插入图片描述

网络结构

图像压缩总体架构如图所示:
在这里插入图片描述
   在端端框架中有三个模块带有两个新模块,即编码器网络、分析块、二值化器、解码器网络和合成块。图像块直接作为使用所提出的分析编码器块生成潜在特征的输入提供给分析块。然后,将潜在表示传递给RNN细胞进行序列生成。此外,二值化器使用二值RNN方法对潜在表示进行量化,并将其发送到解码器网络。并与解码器网络的合成块来构建最终图像。
   每个输入(image patch)首先被传递到分析(analysis)编码器块,以丰富图像表示。类似地,合成(synthesis)-解码器块在循环神经网络细胞的帮助下重建解码图像。
   本文的二值化方案,和网络结构参考于Full resolution image compres-
sion with recurrent neural networks.

   编码器网络包含(一个卷积层、分析编码器块、三个RNN单元),无状态二值化器包含线性卷积层,解码器网络包含(单卷积层、合成解码器块、四个RNN单元和一个反卷积层)。
   端到端框架的单次迭代:
在这里插入图片描述其中Enc和Dec是迭代t次的编码器和解码器,bint 是二进制表示

猜你喜欢

转载自blog.csdn.net/officewords/article/details/130329167