2017-ICLR End-To-End Optimized Image Compression论文笔记

摘要

我们描述了一种图像压缩方法,包括非线性分析变换,均匀量化器和非线性合成变换。变换是在卷积线性滤波器和非线性激活函数的三个连续阶段中构建的。与大多数卷积神经网络不同,选择联合非线性来实现局部增益控制的形式,其灵感来自用于模拟生物神经元的那些。使用随机梯度下降的变体,我们在训练图像数据库上联合优化整个模型的率失真性能,引入由量化器产生的不连续损失函数的连续代理。在某些条件下,松弛损失函数可以被解释为生成模型的对数似然性,如变分自动编码器所实现的。然而,与这些模型不同,压缩模型必须在速率 - 失真曲线的任何给定点处操作,如权衡参数所指定的那样。在一组独立的测试图像中,我们发现优化的方法通常表现出比标准JPEG和JPEG 2000压缩方法更好的速率 - 失真性能。更重要的是,我们观察到所有图像在所有比特率下的视觉质量都有显着提高,这得到了使用MS-SSIM的客观质量估算的支持。

简介

数据压缩是工程中一个基础且经过深入研究的问题,通常用于为具有最小熵的给定离散数据集合设计代码的目的而制定(Shannon,1948)。 该解决方案在很大程度上依赖于数据概率结构的知识,因此该问题与概率源建模密切相关。 然而,由于所有实际代码必须具有有限熵,因此必须将连续值数据(例如图像像素强度的矢量)量化为有限的离散值集,这会引入误差。 在这种情况下,称为有损压缩问题,必须权衡两个竞争成本:离散化表示的熵(速率)和量化(失真)引起的误差。 不同的压缩应用,例如数据存储或有限容量信道上的传输,需要不同的速率 - 失真权衡。

速率和失真的联合优化是困难的。 没有进一步的限制,高维空间中的最佳量化的一般问题是难以处理的(Gersho和Gray,1992)。 出于这个原因,大多数现有的图像压缩方法通过将数据矢量线性变换为合适的连续值表示,独立地量化其元素,然后使用无损熵代码对所得到的离散表示进行编码来进行操作(Wintz,1972; Netravali和Limb,1980年由于转换的核心作用,该方案称为变换编码。 例如,JPEG对像素块使用离散余弦变换,JPEG 2000使用多尺度正交小波分解。 通常,变换编码方法的三个分量 - 变换,量化器和熵编码 - 被单独优化(通常通过手动参数调整)。

我们开发了一种基于非线性变换的图像压缩模型端到端优化框架(图1)。在此之前,我们证明了一个由线性 - 非线性块变换组成的模型,针对感知失真度量进行了优化,与针对均方误差(MSE)优化的模型相比,在视觉上表现出优越性(Ball'e,Laparra和Simoncelli,2016 )。在这里,我们针对MSE进行了优化,但使用了由线性卷积和非线性级联构建的更灵活的变换。具体而言,我们使用广义分裂归一化(GDN)联合非线性,其受到生物视觉系统中神经元模型的启发,并且已经证明在高斯化图像密度方面是有效的(Ball'e,Laparra和Simoncelli,2015)。该级联变换之后是均匀标量量化(即,每个元素被舍入到最接近的整数),这有效地实现了原始图像空间上的矢量量化的参数形式。使用近似参数非线性逆变换从这些量化值重建压缩图像。

对于沿速率 - 失真曲线的任何期望点,使用随机梯度下降来联合优化分析和合成变换的参数。为了在存在量化(几乎在任何地方产生零梯度)的情况下实现这一点,我们使用基于概率模型的连续弛豫的代理损失函数,用加性均匀噪声代替量化步长。宽松的率失真优化问题与用于拟合生成图像模型的问题有些相似,特别是变分自动编码器(Kingma和Welling,2014; Rezende,Mohamed和Wierstra,2014),但我们施加的限制因素不同它在整个速率 - 失真曲线上近似于离散问题。最后,我们不是报告差分或离散熵估计,而是使用实际比特率实现熵代码并报告性能,从而证明了我们的解决方案作为完全有损压缩方法的可行性。

选择前进,反转和感知转换

大多数压缩方法基于正交线性变换,选择该正交线性变换以减少数据中的相关性,从而简化熵编码。 但线性滤波器响应的联合统计表现出强烈的高阶依赖性。 通过使用联合局部非线性增益控制操作(Schwartz和Simoncelli,2001; Lyu,2010; Sinz和Bethge,2013),这些可以通过视觉神经元模型的启发而显著降低(Heeger,1992; Carandini和Heeger,2012)这种模型的级联版本已被用于捕获视觉转换的多个阶段(Simoncelli和Heeger,1998; Mante,Bonin和Carandini,2008)。 一些早期的结果表明,在线性块变换编码方法中结合局部归一化可以提高编码性能(Malo等,2006),并且可以提高级联卷积神经网络的对象识别性能(Jarrett等,2009)。 但是,这些情况下的归一化参数未针对该任务进行优化。 在这里,我们利用具有优化参数的广义分裂归一化(GDN)变换,我们先前已经证明在高斯化自然图像的局部联合统计中非常有效,远远超过线性变换的级联,然后是逐点非线性( Ball'e,Laparra和Simoncelli,2015)。

请注意,深度卷积网络的一些训练算法包含“批量归一化”,重新调整网络中线性滤波器的响应,以使其保持在合理的操作范围内(Ioffe和Szegedy,2015)。 这种类型的归一化与局部增益控制的不同之处在于,重定标因子在所有空间位置上是相同的。 此外,一旦训练完成,缩放参数通常是固定的,这将归一化转换为关于数据的仿射变换 - 与GDN不同,GDN是空间自适应的并且可以是高度非线性的。

猜你喜欢

转载自www.cnblogs.com/dushuxiang/p/10169040.html