基于深度学习的图像压缩

近年来，深度学习在计算机视觉领域已经占据主导地位，不论是在图像识别还是超分辨重现上，深度学习已成为图片研究的重要技术，但它们的能力并不仅限于这些任务；现在深度学习技术已进入图片压缩领域。下面就说说神经网络在图像压缩领域的应用。

当前主要图片压缩算法

说到图像压缩算法，目前市面上影响力比较大的图片压缩技术是WebP和BPG

WebP：谷歌在2010年推出的一款可以同时提供有损压缩和无损压缩的图片文件格式，其以VP8为编码内核，在2011年11月开始可以支持无损和透明色功能。目前facebook、Ebay等网站都已采用此图片格式。

BPG：知名程序员、ffmpeg和QEMU等项目作者Fabrice Bellard推出的图像格式，它以HEVC为编码内核，在相同体积下，BPG文件大小只有JPEG的一半。另外BPG还支持8位和16位通道等等。尽管BPG有很好的压缩效果，但是HEVC的专利费很高，所以目前的市场使用比较少。

就压缩效果来说，BPG更优于WebP，但是BPG采用的HEVC内核所带来的专利费，导致其无法在市场进行大范围使用。在这种情况下，运用深度学习来设计图片压缩算法就应运而生。

早在 2016 年的时候，谷歌的研究人员就提出了一种基于神经网络的全分辨率有损图像压缩法《Full Resolution Image Compression with Recurrent Neural Networks》（利用循环神经网络进行全分辨率图像压缩）。

此后也陆续出现了不少这方面的研究，比如去年的IEEE大会上，来自哈尔滨工业大学的一组研究人员联合提交了一篇论文《An End-to-End Compression Framework Based on Convolutional Neural Networks》（基于卷积神经网络的端到端压缩框架）。

他们在这篇论文中就提出了一种新的基于卷积神经网络的压缩框架，能够实现图像的高质量压缩。这个框架由两部分组成：一个 ComCNN 用于学习输入图像中最优的紧凑表示，然后编码图像，一个 RecCNN 用于重构出高质量的解码图像。下面集智就说说这篇论文中利用深度学习技术进行图像压缩的方法。

什么是图像压缩？

图像压缩就是转换图像的过程，让图像占据更少的空间。很多图像如果直接存储的话或占据很大的空间，所以出现了不少编解码器，比如 JPEG 和 PNG，目的就是减少原始图像的大小。

有损压缩 VS 无损压缩

目前有两种压缩形式：有损压缩和无损压缩。从名字上就能看出来，无损压缩能够恢复原始图像的全部数据，而有损压缩则在图像转换过程中会丢失一些数据。

比如，JPG 就是一种有损压缩算法，而 PNG 就是一种无损压缩算法。

图：无损压缩和有损压缩对比

注意右侧图像上有很多块状的类似马赛克的透明斑点，这就表示图像的信息丢失了。同一颜色的相邻像素会被压缩为一个区域以节省空间，但是也会导致实际像素丢失信息。当然了，像 JPEG，PNG 等这样的算法更复杂些，但上面这个例子应该能很直观地展示出了有损压缩。无损压缩很好，不过最终会在硬盘上占据大量空间。

还有一些更好的图片压缩方法，不会损失太多的图像信息，但是压缩速度很慢。不少还是使用迭代方法，意味着无法在多个 CPU 和 GPU 上并行运行。因而在日常生活中用起来不太实际。

引入卷积神经网络

如果有什么东西能够进行计算，还能近似实现，那就使用神经网络吧。在哈工大的这篇论文中，作者就使用了非常标准的卷积神经网络用来优化图像压缩。他们的方法不仅能很好地的完成图像压缩，而且还能应用并行计算，大幅提高了压缩速度。

这种方法背后的原理就是卷积神经网络非常善于从图像中提取空间信息，然后将信息表示为更复杂的形式（比如，只存储图像的“重要”比特）。作者想借助 CNN 的这种能力来更好地表示图像。

模型架构

作者提出了一种双元网络架构，第一个网络会提取图像的信息并生成紧凑的表示（ComCNN），然后用一个标准的编解码器（比如 JPEG）处理该网络的输出结果。再通过编解码器处理后，图像会被传递到第二个神经网络，它会“修复”来自编解码器的图像，试图恢复原始图像的信息，这个网络被作者称为重构 CNN（RecCNN）。这两个网络都经过迭代训练，和 GAN 类似。