Super-resolution:Camera Lens Super-Resolution(论文解读二十）

论文提出一种基于新的超分模型CameraSR。用于单图像超分辨率（SR）的现有方法通常用合成降级模型评估，例如双三次或高斯下采样。在本文中，我们从相机镜头的角度研究SR，命名为CameraSR，旨在减轻现实成像系统中分辨率（R）和视场（V）之间的内在权衡。具体来说，我们将RV退化视为SR过程中的潜在模型，并学习用真实的低分辨率和高分辨率图像对来反转它。为了获得配对图像，我们为两个代表性成像系统提出了两种新颖的数据采集策略（分别是数码单反相机和智能手机相机。基于获得的City100数据集，我们定量分析了常用合成降解模型的性能，并证明了CameraSR作为提高现有SR方法性能的实用解决方案的优越性。此外，CameraSR可以很容易地推广到不同的内容和设备，在现实的成像系统中用作高级数字变焦工具。

2 Introduction

之前的一些单图像超分辨率的一些方法是通过双三次或者高斯下采样作为退化模型，在重建的精度方面也达到了较高的质量，但是由于我们采集的低分辨图像并非是现实图像，所以这种合成退化模型可能偏离现实成像。为了更好的模型具有挑战性的现实条件，集成包括噪声，运动模糊和压缩伪像，以合成或者数据驱动方式表征LR图像。当LR图像确实具有相应的退化时，这些修改的退化模型促进了学习基础方法的SR性能。

本文中，从相机镜头角度研究SR，以现实环境中的分辨率与视野域之间的平衡为目的，即在焦距和分辨率之间取得平衡。具体而言，我们将在长焦距或短距离处捕获的对象定义为HR基础事实，并将在短焦距或长距离处捕获的对象定义为其配对的LR观察。

我们看图(a)：上图视野域更小，但物体具有更大的分辨率；下图视野域更大，但目标物体的分辨率很低，看不清楚。
我们再看图(b)：从图(a)获得，通过矫正。就获得了一个图像对！上图代表HR，下图代表LR。
我们可以看出作者获取的高低分辨率的图像都是通过现实世界获取的！

图像的获取

为了获得这样的配对图像，首先使用安装在带有变焦镜头的三脚架上的DSLR相机。为了避免离焦模糊，采用小光圈尺寸并捕捉打印在明信片上的100个城市场景作为可以在不同焦距下聚焦的主体。然而，在实践中，由于机械变焦引起的若干问题禁止直接使用捕获的原始数据，包括空间未对准，强度变化和颜色不匹配。在通过精心设计的数据整流管道解决这些问题之后，构建了一个由100个对齐图像对组成的数据集，名为“City100”。
基于City100，我们根据LR观测和SR结果对常用的合成降解模型进行定量分析。以双三次下采样为例，由于低估了R-V退化（如图2所示），导致SR性能显着恶化（如图3所示）。

该分析验证了降解建模对于真实成像系统中的分辨率增强的重要性。观察合成降解模型的缺点，通过学习City100的R-V降解，提出CameraSR作为提高现有SR方法性能的实用解决方案。综合实验表明，与使用合成降解模型的相比，CameraSR实现了SR结果的显着改善。更重要的是，我们证明CamereSR在内容和设备方面具有良好的泛化能力。具体地，在City100上训练的SR网络可以容易地推广到其他场景内容，以及属于相同类别的成像系统的其他类型的设备。

通过在现实成像系统中有效地减轻R-V权衡甚至打破光学镜头的物理变焦比，CameraSR作为一种先进的数字变焦工具在实践中得到了广泛的应用。论文的主要贡献：

在现实成像系统中进行SR建模的新视角，即相机镜头的R-V劣化。
两种新颖的策略，用于获取城市100中的LR-HR图像对，以分别表征DSLR和智能手机相机下的R-V劣化。
使用实际数据对常用的合成降解模型进行定量分析。
一种有效的解决方案，即CameraSR，用于在现实成像系统中推广现有的基于学习的SR方法。

3 Related Work

单图像的超分工作中，之前的一些工作不断的追求重建的精度，不断的优化DCNN网络结构和提出各式各样的机制以达到the-state-of-art的效果。

然而，大多数现有的基于学习的方法在制定SR问题时采用合成退化模型（例如，双三次或高斯下采样），这阻碍了它们在具有更复杂退化的真实成像系统中的性能。有一些涉及单个图像SR的真实退化建模的工作。在双三次下采样的LR图像中引入了更多的降级算子，包括运动模糊和泊松噪声。使用低质量假设（例如，噪声，模糊和压缩伪像）定义LR面部图像并训练GAN 以学习退化过程。另一方面，作为一种基于自相似性的方法，Michaeli和Irani依靠inputimage的固有复发来自适应地估计退化模型。 Shocheretal。进一步优化了图像特定的CNN，其中的例子仅从输入图像中提取。
与上述方法不同，我们提出的CameraSR从相机镜头的角度模拟R-V劣化。 R-V退化的估计既不依赖于低质量假设，也不依赖于LR图像的固有复发。相反，它的特征在于用真实成像系统捕获的样本。这种退化建模的灵感来自先前的真实图像去噪工作，其中以高ISO值捕获的对象被定义为噪声，并且以低ISO值捕获的相同对象被定义为干净。我们将此定义扩展到SR场景，该场景解决了获得真实LR-HR图像对的关键挑战。请注意，本文的重点不是网络设计。为了比较的目的，我们采用VDSR 和SRGAN 作为两个代表性实施例来证明CameraSR的有效性和普遍性，可以用任何基于CNN的方法代替。

4 Problem Formulation

缩小镜头会以牺牲对象的分辨率损失为代价获得更大的FoV。将此R-V劣化表示为 $^{X_{RV}}$ (·)，我们的目标是获得对于真实图像SR反转 $^{X_{RV}}$ (·)的函数S(·)。这个问题可以表述为:

其中X表示原始图像， $\widehat{X}$ 表示超分辨图像。与以前的SR配方相比，唯一的区别在于降解过程的建模。例如，双三次下采样 $^{D_{Bic}}$ (·)将SR问题表述为 $\widehat{X}$ = S（ $^{D_{Bic}}$ （X））,高斯下采样表示为： $\widehat{X}$ = S（ $^{D_{Gau}}$ （X））

与如上所述的合成降解模型不同，难以得出 $^{D_{RV}}\left ( · \right )$ 的分析表达式。受基于学习的SR的启发，我们将RV退化视为SR过程中的潜在模型 $^{D_{RV}}\left ( · \right )$ ，并直接学习具有N对真实LR的参数SR函数 $^{S_{\Theta }}$ （·）（Y = {Y 1， Y 2，...，YN}）和HR（X = {X 1，X 2，...，XN}）样本，可以表示为

最终的目标函数：

其中Θ表示一组可训练参数，n表示用随机梯度下降算法优化Θ时小批量的大小。

虽然问题的表述非常直观，但关键的挑战是，如何在真实的成像系统中获得LR-HR图像对？

5 Data Acquisition

5.1 DSLR imageing system

（这部分论文直译）为了拍摄逼真的LR-HR图像对，使用安装在三脚架上的尼康D5500相机和变焦尼克尔镜头，焦距范围从18mm到55mm。我们将以55mm焦距拍摄的图像定义为HR地面实况，将以18mm焦距拍摄的图像定义为LR观测。为了减轻噪声的影响，将ISO值设置为最低级别。每次拍摄时，其他设置（如白平衡和光圈大小）都是固定的。然而，在实践中，观察到几个禁止直接使用捕获的原始数据的问题，包括空间错位，强度变化和颜色不匹配。这可能是由于焦距的变化是一个无法理想控制的机械过程。因此，它导致相机机身的轻微抖动以及曝光配置。为解决这些问题，我们详细阐述了数据整改流程。
首先，计算和匹配HR图像和插值LR图像之间的SIFT关键点。然后，匹配的坐标用于使用RANSAC估计单应性。通过平移参数，我们通过插值移动LR图像以获得对齐的结果。注意，插值将引入一些平滑效果，但对于包含相对较少高频的已经插值的LR图像并不重要。我们避免转移HR图像，因为它们包含许多所需的细节。其次，我们将强度变化建模为图像的DC分量中的偏差，并通过平均整个图像中的像素强度来估计它。然后，我们使用估计的偏差来补偿这种变化。第三，我们将颜色不匹配建模为参数非线性映射，并通过利用颜色棋盘将其与多项式参数拟合以进行校准，如图4所示。具体来说，我们从颜色棋盘中收集并平均每个块中的像素值从LR观察到HR基础事实获得配对样本。然后，我们分别使用收集的样本拟合R，G和B通道的三条多项式曲线。最后，我们使用获得的多项式曲线在LR观测中映射像素。

经过上述数据整改，我们使用单反相机构建了City100数据集，其中以高质量明信片打印的100个城市场景为主体。明信片的平面形状保证了整个图像可以在长焦距和短焦距的小光圈尺寸下很好地聚焦，这避免了离焦模糊。 City100中最终HR图像的分辨率为1218×870，是LR的2.9倍。来自City100的图像具有不同的颜色和内容，这有利于基于倾斜的SR。 City100数据集的概述显示在补充文档中。

5.2 Smartphone imageing system

与专业数码单反相机中的变焦镜头不同，商用智能手机相机通常配备焦距不能改变的定焦镜头。从这个意义上讲，逼真的降级建模对于智能手机来说更有意义，其中CameraSR可以作为强大的数字变焦工具。然而，受固定焦距镜头的限制，用于智能手机相机的LR-HR图像对不能以与DSLR相机相同的策略捕获。另外，我们开发了另一种获取City100智能手机版本的策略，如图5所示。

安装在翻译台上的iPhone X用于数据采集，可以精确调整iPhone相对于翻译阶段的位置。我们将在短距离处捕获的图像定义为HR基础事实，并将远距离捕获的图像定义为LR观察。为避免智能手机本身进行“智能”曝光配置，我们使用ProCam 1软件手动控制ISO，白平衡，曝光时间等设置。智能手机的数据整流管道类似于数码单反相机。此外，考虑到智能手机图像由于传感器尺寸小得多而具有比DSLR图像明显更重的噪声，我们重复捕获每个场景20次并平均得到的图像以减轻噪声的影响。最终HR图像的分辨率是LR的2.4倍。值得一提的是，City100数据集及其智能手机版本是通过两个代表性的真实成像系统获得的，即DSLR和智能手机。虽然这里使用了两个特定设备，即Nikon D5500和iPhone X，但经过培训的CameraSR网络具有良好的通用能力，可以很容易地应用于属于同一类别成像系统的不同设备。

6 Analysis on Degradation Model

在本节中，目标是定量分析常用合成降解模型 $^{D_{Bic}}$ （·）和 $^{D_{Gau}}$ （·）的性能，与基于我们开发的配对样本的实际RV降解 $^{D_{RV}}\left ( · \right )$ 进行比较 City100数据集。由于 $^{D_{RV}}\left ( · \right )$ 没有分析表达式，因此很难在它们之间进行直接比较。因此，转向相应的LR观察和SR结果进行定量比较。

7 Experiment

论文中分析清楚地证明了降解建模对于逼真成像系统的分辨率增强的重要性，但CameraSR优于BicubicSR和GaussianSR并不令人惊讶，因为它直接从City100获知R-V降级。在本节中展示了广泛的SR结果，以展示CameraSR（仍然在City100上训练）对于真实场景的普遍性，这些场景在内容上与City100截然不同，甚至可以使用不同的设备捕获。在重建精度和感知质量方面，仍然采用BicubicSR和GaussianSR进行比较。

7.1先进的数码变焦

我们的主要目标是在现实成像系统中减轻R-V权衡甚至打破光学镜头的物理变焦比，我们现在证明CameraSR实现了这一目标。如图10（a）所示，给定由焦距为18mm的DSLR相机拍摄的图像，CameraSR有效地超分辨其细节，这可以被视为减轻相机镜头的RV权衡（即，分辨率）和FoV现在同时获得）。同时，当相同DSLR相机的变焦镜头在55mm的焦距处达到其最大放大率时，CameraSR能够进一步增强所捕获图像的分辨率，如图10（b）所示。类似地，在图11中，对于具有固定焦距镜头的智能手机相机，CameraSR用作高级数字变焦工具，与内置数字变焦功能相比，其显着提高了成像质量。图10（b）和图11中的例子可视为打破变焦比的物理极限。

7.2 Generalizability

除了SR性能的显着提高外，提出的CameraSR在内容和设备方面也具有良好的泛化能力。对于内容概括，回想一下City100数据集是在具有单一类别主题（即明信片）的室内环境下捕获的，而在City100上训练的CameraSR模型在具有不同主题的室内和室外环境中表现良好，如图对于设备概括，如图12所示，在iPhone X版本的City100上训练的CameraSR模型可以很容易地应用于不同的智能手机。

8 Conclusion

在本文中，从相机镜头的角度研究SR，命名为CameraSR，它模拟真实成像系统中的R-V退化。通过提出的数据采集策略，我们构建了City100数据集，以表征代表性DSLR和智能手机相机中的R-V劣化。基于City100，我们分析了常用合成降解模型的缺点，并验证CameraSR是一种提高现有SR方法性能的实用解决方案。由于其良好的泛化能力，CameraSR可以在真实成像系统中作为先进的数字变焦工具找到广泛的应用。特别是，除了自然图像的增强，我们相信CameraSR对于使用显微镜的生物医学成像具有很大的价值，其中分辨率增强对于科学观察是必不可少的。
尽管初步结果很有希望，但本文还没有考虑到一些现实世界的情况。在LR观测方面，我们考虑一个没有噪声的相对理想的条件。然而，噪声的影响是不可避免的，特别是在具有小型传感器的智能手机成像系统中。因此值得联合研究R-V降级和噪声，以进一步提升CameraSR的鲁棒性。除了本文讨论的单个图像SR之外，R-V劣化可以推广到突发图像SR，其中使用突发拍摄模式捕获LR图像序列以利用来自子像素运动的基础信息以用于更好的HR重建。此外，除了从外部示例中学到的先验之外，通过基于City100数值估计R-V退化内核，可以进一步扩展所提出的CameraSR以用于基于自相似性的方法以利用固有的重现。

Jayden yang

发布了106 篇原创文章 · 获赞 158 · 访问量 8万+

私信关注