CVPR&ICCV&ECCV共10年解读2019

Paper之CVPR&ICCV&ECCV:2009年~2019年CVPR&ICCV&ECCV(国际计算机视觉与模式识别会议&国际计算机视觉大会&欧洲计算机视觉会议)历年最佳论文简介及其解读

目录

Paper之CVPR&ICCV&ECCV:2009年~2019年CVPR&ICCV&ECCV(国际计算机视觉与模式识别会议&国际计算机视觉大会&欧洲计算机视觉会议)历年最佳论文简介及其解读

计算机视觉方向的三大顶级会议之ICCV

计算机视觉方向的三大顶级会议之CVPR

计算机视觉方向的三大顶级会议之ECCV

论文介绍

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
中文题目:具有空洞分离卷积的编码-解码器用于语义图像分割

MobileNetV2: Inverted Residuals and Linear Bottlenecks
中文题目:MobileNetV2: 反向残差和线性瓶颈

The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
中文题目:深度特征作为感知度量的有效性

Residual Dense Network for Image Super-Resolution
中文题目:基于残差密集网络的图像超分辨率重建

ShuffleNet V2: Practical guidelines for efficient cnn architecture design
中文题目:ShuffleNet V2: 高效CNN网络结构设计实用指南

A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
中文题目:非视距形状重建的费马路径理论

Implicit 3D Orientation Learning for 6D Object Detection from RGB Images
中文题目:从RGB 图像检测6维位姿的隐式三维朝向学习

SinGAN: Learning a Generative Model from a Single Natural Image
中文题目:SinGAN:从单张图像学习生成模型


Paper之CVPR&ICCV&ECCV:2009年~2019年CVPR&ICCV&ECCV(国际计算机视觉与模式识别会议&国际计算机视觉大会&欧洲计算机视觉会议)历年最佳论文简介及其解读

计算机视觉方向的三大顶级会议ICCV

        ICCV 的全称是 IEEE International Conference on Computer Vision,即国际计算机视觉大会,由IEEE主办,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议,被澳大利亚ICT学术会议排名和中国计算机学会等机构评为最高级别学术会议,在业内具有极高的评价。不同于在美国每年召开一次的CVPR和只在欧洲召开的ECCV,ICCV在世界范围内每两年召开一次。ICCV 论文录用率非常低,是三大会议中公认级别最高的。ICCV 会议时间通常在四到五天,相关领域的专家将会展示最新的研究成果。2019年ICCV将在韩国首尔举办。
        ICCV 是计算机视觉领域最高级别的会议,会议的论文集代表了计算机视觉领域最新的发展方向和水平。会议的收录率较低,以 2007 年为例,会议共收到论文1200余篇,接受的论文仅为244篇。会议的论文会被 EI 检索,但其影响力却远超一般SCI期刊,大致与中科院JCR分区1区和Web of Science的JCR分区Q1中靠前的学术期刊相当。

计算机视觉方向的三大顶级会议CVPR

        CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议。
        CVPR有着较为严苛的录用标准,会议整体的录取率通常不超过30%,而口头报告的论文比例更是不高于5%。而会议的组织方是一个循环的志愿群体,通常在某次会议召开的三年之前通过遴选产生。CVPR的审稿一般是双盲的,也就是说会议的审稿与投稿方均不知道对方的信息。通常某一篇论文需要由三位审稿者进行审读。最后再由会议的领域主席(area chair)决定论文是否可被接收。

计算机视觉方向的三大顶级会议ECCV

        ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,两年一次,是计算机视觉三大会议(另外两个是ICCV CVPR)之一。每次会议在全球范围录用论文300篇左右,主要的录用论文都来自美国、欧洲等顶尖实验室及研究所,中国大陆的论文数量一般在10-20篇之间ECCV2010的论文录取率为27%。
        ECCV是一个欧洲会议,欧洲人一般比较看中理论,但是从最近一次会议来看,似乎大家也开始注重应用了,oral里面的demo非常之多,演示效果很好,让人赏心悦目、叹为观止。不过欧洲的会有一个不好,就是他们的人通常英语口音很重,有些人甚至不太会说英文,所以开会和交流的时候,稍微有些费劲。

论文介绍

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
中文题目:具有空洞分离卷积的编码-解码器用于语义图像分割

参考文章DL之DeepLabv3:DeepLab v3和DeepLab v3+算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

论文作者 Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,Hartwig Adam
论文地址 https://arxiv.org/abs/1802.02611v1
论文摘要 Spatial pyramid pooling module or encode-decoder structure  are used in deep neural networks for semantic segmentation  task. The former networks are able to encode  multi-scale contextual information by probing the incoming  features with filters or pooling operations at multiple rates  and multiple effective fields-of-view, while the latter networks  can capture sharper object boundaries by gradually  recovering the spatial information. In this work, we propose  to combine the advantages from both methods. Specifically,  our proposed model, DeepLabv3+, extends DeepLabv3 by  adding a simple yet effective decoder module to refine the  segmentation results especially along object boundaries. We  further explore the Xception model and apply the depthwise  separable convolution to both Atrous Spatial Pyramid Pooling  and decoder modules, resulting in a faster and stronger  encoder-decoder network. We demonstrate the effectiveness  of the proposed model on the PASCAL VOC 2012 semantic  image segmentation dataset and achieve a performance  of 89% on the test set without any post-processing. Our  paper is accompanied with a publicly available reference  implementation of the proposed models in Tensorflow.
深度神经网络采用空间金字塔池模块或编码解码器结构进行语义分割。前一种网络能够对多尺度的上下文信息进行编码,通过过滤器探测输入的特征,或者以多种速率和多个有效的视场汇聚操作,而后一种网络能够通过逐步恢复空间信息捕捉更清晰的对象边界。在这项工作中,我们建议结合两种方法的优点。具体来说,我们提出的模型DeepLabv3+扩展了DeepLabv3,增加了一个简单而有效的解码器模块来细化分割结果,尤其是沿着对象边界。我们进一步探讨了Xception模型,并将深度可分的迴旋应用于Atrous Spatial Pyramid Pooling和decoder modules,得到一个更快更强的编码器-解码器网络。我们在PASCAL VOC 2012语义图像分割数据集上验证了该模型的有效性,并且在没有任何后处理的情况下,测试集的性能达到89%。我们的论文附带了Tensorflow中提出的模型的公开参考实现
研究问题 语义分割是计算机视觉中一项基本且重要的研究内容,它是为图像中的每个像素分配语义标签。在深度学习语义分割任务中经常会使用空间金字塔池化编码-解码器结构。空间金字塔池化可以通过不同分辨率的池化特征捕捉丰富的上下文信息,但网络中具有步进操作的池化或卷积会导致与对象边界有关的详细信息丢失。这可以通过空洞卷积提取更密集的特征图来缓解,但大大增加了计算资源的消耗。而编码-解码器结构则可以通过逐渐恢复空间信息来捕获更清晰的对象边界。通过组合两种方法的优点,提出新的模型—DeepLabv3+
研究方法

如下图是DeepLabv3+的网络结构,通过添加一个简单但有效的解码器模块来优化分割结果,尤其是对象边界的分割结果,扩展了DeepLabv3。编码器模块(DeepLabv3)通过在多个尺度上应用空洞卷积,编码多尺度上下文信息。空洞卷积可以明确控制由深度卷积神经网络所提特征的分辨率,并调整滤波器的感受野以捕获多尺度信息。而简单而有效的解码器模块则沿对象边界调整分割结果。为了进一步提高模型的性能和速度,将深度分离卷积应用于ASPP(空洞空间金字塔池化)和解码器模块。深度分离卷积将传统的卷积分解为一个深度卷积和一个1×1的逐点卷积,在深度卷积操作时应用膨胀率不同的空洞卷积,以获取不同的尺度信息。

研究结果 以用ImageNet-1k预训练的ResNet-101和修改的对齐Xception(更多的层、步进深度分离卷积替代最大池化、额外的BN和ReLU)为骨架网络,通过空洞卷积提取稠密特征。在PASCAL VOC 2012和Cityscapes数据集上证明了DeepLabv3+的有效性和先进性,无需任何后处理即可实现89%和82.1%的测试集性能。但是 对非常相近的物体(例如椅子和沙发)、严 重遮挡的物体视野极小的物体较难进行分割

MobileNetV2: Inverted Residuals and Linear Bottlenecks
中文题目:MobileNetV2: 反向残差和线性瓶颈

参考文章DL之MobileNetV2:MobileNetV2算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

论文作者 论文作者:Sandler Mark,Howard Andrew,Zhu Menglong,Zhmoginov Andrey,Chen Liang-Chieh
论文地址 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018
https://arxiv.org/abs/1801.04381v3
论文摘要        In this paper we describe a new mobile architecture,  MobileNetV2, that improves the state of the art performance  of mobile models on multiple tasks and benchmarks  as well as across a spectrum of different model  sizes. We also describe efficient ways of applying these  mobile models to object detection in a novel framework  we call SSDLite. Additionally, we demonstrate how  to build mobile semantic segmentation models through  a reduced form of DeepLabv3 which we call Mobile  DeepLabv3.  is based on an inverted residual structure where  the shortcut connections are between the thin bottleneck  layers. The intermediate expansion layer uses  lightweight depthwise convolutions to filter features as  a source of non-linearity.       
       Additionally, we find that it is  important to remove non-linearities in the narrow layers  in order to maintain representational power. We demonstrate  that this improves performance and provide an intuition  that led to this design.  
       Finally, our approach allows decoupling of the input/output  domains from the expressiveness of the transformation,  which provides a convenient framework for  further analysis. We measure our performance on  ImageNet [1] classification, COCO object detection [2],  VOC image segmentation [3]. We evaluate the trade-offs  between accuracy, and number of operations measured  by multiply-adds (MAdd), as well as actual latency, and  the number of parameters.
       在本文中,我们描述了一种新的移动架构MobileNetV2,它改善了移动模型在多个任务和基准上以及在不同模型大小的范围内的最新性能。我们还描述了在一个称为SSDLite的新框架中,将这些移动模型应用于目标检测的有效方法。此外,我们还演示了如何通过DeepLabv3 (我们称之为Mobile DeepLabv3 )的简化形式来构建移动语义分割模型。是基于一个倒置的residual结构,其中的快捷连接是在薄的bottleneck 层之间。中间扩展层使用轻量级的垂直卷积来过滤作为非线性源的特征
       此外,我们发现为了保持具有代表性的能力,在狭窄的层面上去除非线性是很重要的。我们证明,这提高了性能,并提供了带来此设计的直觉(即灵感来源)。
       最后,我们的方法允许将输入/输出域与转换的表现性分离,这为进一步分析提供了一个方便的框架。我们在ImageNet分类、COCO目标检测[2]和VOC图像分割上测量我们的性能。我们评估了精度、乘法加法(MAdd)度量的操作数、实际延迟和参数数之间的权衡。
研究问题 在众多计算机视觉领域中,深度神经网络正扮演越来越重要的角色。但是优秀性能的获得通常是以高昂计算资源为代价的,从而大大限制了在计算资源严重受限的移动端或嵌入式设备中使用。因此轻量化网络的研究在近期收到了大量关注,本文提出了一种新的移动端轻量化模型—MobileNetV2,在保持相同精度的同时显着减少了所需的操作和内存需求,关键是设计了具有线性瓶颈的反向残差模块。将上述模型应用于移动端目标检测,介绍了一种有效的方法—SSDLite。此外,通过简化的DeepLabv3构建移动端语义分割模型—Mobile DeepLabv3。
研究方法

MobileNetV2的关键是具有线性瓶颈的反向残差模块,该模块以低维压缩表示作为输入,首先将其扩张到高维,然后使用轻量级的深度卷积进行过滤,最后使用线性卷积将特征投影回低维表示。其包含两个主要的技术:深度分离卷积残差模块
深度分离卷积是很多有效的神经网络结构中关键的组成部分,其基本思想是将传统卷积分解为两部分:第一层称为深度卷积,它通过对每个输入通道应用单个卷积滤波器来执行轻量化滤波;第二层是1×1卷积,称为逐点卷积,它通过计算输入通道的线性组合来构建新特征。深度分离卷积的计算量相对于传统卷积减少了大约k2(k是卷积核大小),但是性能只有极小的降低。
我们可以认为深度神经网络中任意层的激活组成一个“感兴趣流形”,它可以嵌入到低维子空间中。也就是说,深度卷积层中所有单个通道的像素,其中编码的信息实际上位于某种流形中,而该流形可以嵌入到低维子空间中。通过分析作者得到两个属性:

  • (1)如果感兴趣流形在ReLU变换后仍保持非零值,则对应于线性变换;
  • (2)ReLU能够保留输入流形的完整信息,但前提是输入流形位于输入空间的一个低维子空间中。

基于以上两个观点,帮助作者优化现有的神经网络结构:假设感兴趣流形是低维的,可以通过向卷积块插入线性瓶颈获得该流形,即本文核心具有线性瓶颈的反向残差模块,其结构如下图所示。先使用逐点卷积扩大通道数+ReLU激活,然后使用逐深度卷积提取特征+ReLU激活,最后使用逐点卷积降低通道数+线性激活,并且使用了shortcut连接。

研究结果

研究者首先通过实验验证了反向残差连接和线性瓶颈的有效性,然后在图像分类、目标检测和语义分割三个任务上证明了本文网络结构的先进性。ImageNet图像分类任务上MobileNetV2的Top1最好可达74.7,优于MobileNetV1、ShuffleNet和NASNet-A。在目标检测任务上,MNetV2+SSDLite与MNetV1+SSDLite的mAP很接近,但参数量和计算时间都明显减少。在语义分割任务上保持较好性能的同时减少了参数量和计算资源的消耗。

The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
中文题目:深度特征作为感知度量的有效性

论文作者 Zhang Richard,Isola Phillip,Efros Alexei A.,Shechtman Eli,Wang Oliver
论文地址

2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018

https://ieeexplore.ieee.org/document/8578166
https://arxiv.org/abs/1801.03924

论文摘要

While it is nearly effortless for humans to quickly assess the perceptual similarity between two images, the underlying processes are thought to be quite complex. Despite this, the most widely used perceptual metrics today, such as PSNR and SSIM, are simple, shallow functions, and fail to account for many nuances of human perception. Recently, the deep learning community has found that features of the VGG network trained on ImageNet classification has been remarkably useful as a training loss for image synthesis. But how perceptual are these so-called "perceptual losses"? What elements are critical for their success? To answer these questions, we introduce a new dataset of human perceptual similarity judgments. We systematically evaluate deep features across different architectures and tasks and compare them with classic metrics. We find that deep features outperform all previous metrics by large margins on our dataset. More surprisingly, this result is not restricted to ImageNet-trained VGG features, but holds across different deep architectures and levels of supervision (supervised, self-supervised, or even unsupervised). Our results suggest that perceptual similarity is an emergent property shared across deep visual representations.

虽然对人类来说快速评估两幅图像之间的感知相似性几乎是毫不费力的,但人们认为其背后的过程相当复杂。尽管如此,目前最广泛使用的感知度量,如PSNR和SSIM,都是简单、肤浅的函数,不能解释人类感知的许多细微差别。最近,深度学习社区发现,经过ImageNet分类训练的VGG网络的特征作为图像合成的训练损失非常有用。但是这些所谓的“感性损失”有多感性呢?他们成功的关键因素是什么?为了回答这些问题,我们引入了一个新的人类感知相似性判断数据集。我们系统地评估不同架构和任务的深层特性,并将它们与经典的度量标准进行比较。我们发现深度特性在我们的数据集上比以前的所有度量都有很大的优势。更令人惊讶的是,这个结果并不局限于ImageNet训练的VGG特性,而是适用于不同的深层架构和监督级别(监督、自我监督、甚至非监督)。我们的研究结果表明,知觉相似性是在深层视觉表征中共享的一种突现属性

研究问题

对于人类来说,评估两幅图像之间的感知相似度几乎是毫不费力且快速的, 但其潜在过程却被认为是相当复杂的。视觉模式是高维且高度相关的,视觉相似性的概念十分主观。例如在图像压缩领域,压缩图像是为了人类看来与原始图像 没有很大区别,而不关注它们在像素值上可能有很大的差别。当今最广泛使用的、 传统的基于像素值的度量方法(例如L2 欧式距离、PSNR)或感知距离度量(如 SSIM、MSSIM 等)是简单的浅层函数,无法解决人类感知的许多细微差别,一 个最典型的例子就是模糊会造成图像在感知上的很大不同,但是在L2 范数上却 差别不大。如下图所示,传统的评价指标与人类的感知判断是完全相反的。近期 深度学习社区发现,将在ImageNet 分类中训练的VGG 网络模型所提取的深度 特征,用作图像合成的训练损失是非常有用,一般将这种损失称为“感知损失” (perceptual losses)。但是这些感知损失的作用有多大?哪些要素对其成功至关 重要?本文研究者们尝试探讨了这些问题。

研究方法

为了研究将深度神经网络提取的深度特征作为感知损失的有效性,本文研究 者们构造了一个人类感知相似性判断的新数据集——Berkeley-Adobe Perceptual Patch Similarity Dataset(BAPPS 数据集)。该数据集包括484K 个人类判断,具 有大量传统失真,如对比度、饱和度和噪声等;还有基于CNN 模型的失真,例 如自编码、降噪等造成的失真;以及一些真实算法的失真,如超分辨率重建、去 模糊等真实应用。 
论文用如下公式计算在给到一个网络F 时,参考和失真图像块的距离。首先提取特征,然后将通道维度的激活归一化,用向量w 缩放每个通道,并采用2 距离。最后对空间维度的所有层取平均。

研究结果 作者进行了大量的实验,系统地 评估了不同网络结构和任务中的深度特征, 并将它们与经典指标进行比较,发现深度特征是一种非常好的感知度量指标。更 令人惊讶的是,该结果不仅限于ImageNet 训练的VGG 提取的深度特征,而且还 适用于不同的深度网络结构和不同的训练方式(监督,自监督,甚至无监督)。

Residual Dense Network for Image Super-Resolution
中文题目:基于残差密集网络的图像超分辨率重建

论文作者 Yulun Zhang,Yapeng Tian,Yu Kong,Bineng Zhong,Yun Fu
论文地址 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2018
https://ieeexplore.ieee.org/document/8578360
https://arxiv.org/abs/1802.08797
论文摘要

A very deep convolutional neural network (CNN) has recently  achieved great success for image super-resolution  (SR) and offered hierarchical features as well. However,  most deep CNN based SR models do not make full use of  the hierarchical features from the original low-resolution  (LR) images, thereby achieving relatively-low performance.  In this paper, we propose a novel residual dense network  (RDN) to address this problem in image SR. We fully exploit  the hierarchical features from all the convolutional layers.  Specifically, we propose residual dense block (RDB) to extract  abundant local features via dense connected convolutional  layers. RDB further allows direct connections from  the state of preceding RDB to all the layers of current RDB,  leading to a contiguous memory (CM) mechanism. Local  feature fusion in RDB is then used to adaptively learn more  effective features from preceding and current local features  and stabilizes the training of wider network. After fully obtaining  dense local features, we use global feature fusion  to jointly and adaptively learn global hierarchical features  in a holistic way. Experiments on benchmark datasets with  different degradation models show that our RDN achieves  favorable performance against state-of-the-art methods.

深度卷积神经网络(CNN)最近在图像超分辨率(SR)方面取得了巨大的成功,并提供了层次化的特征。然而,大多数深度CNN的SR模型并没有充分利用原始低分辨率(LR)图像的层次特征,因此性能相对较低。在本文中,我们提出了一种新的残差密集网络(RDN)来解决这一问题。具体来说,我们提出了残差密集块(residual density block, RDB),通过密集连接的卷积层提取丰富的局部特征。RDB还允许将之前的RDB状态直接连接到当前RDB的所有层,从而形成一个连续内存(CM)机制。然后利用RDB中的局部特征融合,自适应地从已有的和当前的局部特征中学习更有效的特征,从而稳定更大范围网络的训练。在充分获得稠密局部特征的基础上,采用全局特征融合的方法,对全局层次特征进行整体学习和自适应学习。在不同退化模型的基准数据集上的实验表明,我们的RDN在与最先进的方法相比具有良好的性能。

研究问题 单幅图像超分辨率(SISR)旨在通过其退化的低分辨率(LR)观测结果生成 视觉上令人愉悦的高分辨率(HR)图像。最近,深度卷积神经网络在图像超分辨 率重建方面取得了巨大的成功,网络的不断加深使模型能提供丰富分层特征,图 像中的目标具有不同的比例、视角和宽高比,来自非常深的网络的分层特征能为 重建提供更多线索。但是,大多数基于卷积神经网络的深层图像超分辨率模型都 没有充分利用原始低分辨率(LR)图像中的分层特征,以致获得了相对较低的性 能。在本文中,研究者提出了一种 新颖的残差密集网络(RDN)来解决图像超分 辨率中的上述问题,使模型能充分利用所有卷积层提取的分层特征。 研究方法

如下图是残差密集网络RDN,主要包含四部分:浅层特征提取网络(SFEnet)、 残差密集块(RDBs)、密集特征融合(DFF)和上采样网络(UPNet)。一个非 常深的网络直接提取LR 空间中每个卷积层的输出是困难且不切实际的,所以使 用残差密集块(RDB)作为RDN 的构建模块。RDB 由密集连接层和具有局部残 差学习能力的局部特征融合(LFF)组成。RDB还支持RDB之间的连续存储,一个RDB的输出可以直接访问下一个RDB中每一层,形成连续的状态传递。RDB中的每个卷积层都可以访问所有后续层,并传递需要保留的信息。局部特征融合将先前的RDB和当前RDB中所有先前层的状态连接在一起,通过自适应保留信息来提取局部密集特征。LFF通过更高的增长率来稳定更宽网络的训练。在提取多层局部密集特征后,进一步进行全局特征融合(GFF),以全局方式自适应地保留分层特征。在RDN中每个卷积层卷积核大小为3×3,局部和全局特征融合卷积核大小为1×1。在上采样部分使用ESPCNN提升图像的分辨率。

研究结果 使用DIV2K数据集中全部的800幅训练图像训练模型,测试选用5个标准基准数据集:Set5、Set14、B100、Urban和Manga109。为了全面地说明所提方法的有效性,模拟了三种图像退化过程:
  • (1)双三次下采样(BI);
  • (2)高斯核模糊HR图像,再下采样(BD);
  • (3)先双三次下采样,再加入高斯噪声(DN)。
作者进行了大量的实验发现:
  • (1)RDB数量或RDB中卷积层数量越多,模型性能越好;增长率越大也会获得更好的性能。当上述模块使用数量较少时RDN依然比SRCNN性能好。
  • (2)进行了消融实验,验证了所提模型中连续存储、局部残差学习和全局特征融合的有效性。
  • (3)在三种退化模型上与六种先进的模型进行了对比:SRCNN、LapSRN、DRNN、SRDenseNet、MemNet和MDSR。在不同比例因子、退化模型和数据集中,RDN都表现出了相近甚至更好的性能。

ShuffleNet V2: Practical guidelines for efficient cnn architecture design
中文题目:ShuffleNet V2: 高效CNN网络结构设计实用指南

论文作者 Ma Ningning,Zhang Xiangyu,Zheng Hai-Tao,Sun Jian
论文地址 Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), v 11218 LNCS, p 122-138, 2018, Computer Vision – ECCV 2018 - 15th European Conference, 2018, Proceedings
https://arxiv.org/abs/1807.11164
论文摘要 Currently, the neural network architecture design is mostly  guided by the indirect metric of computation complexity, i.e., FLOPs.  However, the direct metric, e.g., speed, also depends on the other factors  such as memory access cost and platform characterics. Thus, this work  proposes to evaluate the direct metric on the target platform, beyond  only considering FLOPs. Based on a series of controlled experiments,  this work derives several practical guidelines for efficient network design.  Accordingly, a new architecture is presented, called ShuffleNet V2.  Comprehensive ablation experiments verify that our model is the stateof-the-art  in terms of speed and accuracy tradeoff.
目前,神经网络体系结构设计主要以计算复杂度的间接度量为指导,换句话说即FLOPs。然而,直接度量,如速度,也取决于其他因素,如内存访问成本和平台特性。因此,这项工作建议评估目标平台上的直接度量,而不是只考虑失败。在一系列控制实验的基础上,提出了高效网络设计的若干实用准则。因此,提出了一种新的体系结构,称为ShuffleNet V2。综合烧蚀实验证明,我们的模型在速度和精度上是最先进的
研究问题

自AlexNet之后,ImageNet图像分类准确率被很多新的网络结构如ResNet和DenseNet等不断提高,但是除准确率外,计算复杂度也是CNN网络需要考虑的重要指标。实际任务通常是要在有限的计算资源下获得最佳的精度,过复杂的网络由于速度原因难以在移动端等设备中应用。为此,研究者们提出了很多轻量化的CNN网络如MobileNet和ShuffleNet等,在速度和准确度之间做了较好地平衡。以往的移动端CNN网络结构设计在考虑计算复杂度时,直接致力于优化整体网络计算所需的FLOPs,并没有考虑真正关心的速度和延迟,且具有相似FLOPs的网络速度也是不同的。像内存访问开销(MAC)、计算平台等也是需要考虑的方面。为了实际需求,本文研究者不局限于追求理论FLOPs的减少,从更直接的角度为轻量化网络设计提供指导意见。

研究方法

作者建议有效的网络结构设计应考虑两个原则。首先,应使用直接指标(例如速度)代替间接指标(例如FLOP)。其次,应在目标平台上评估此类指标。通过对两个代表性最新网络的分析,作者得出了关于有效网络设计的四项准则:

  • (1)卷积层的输入和输出特征通道数相等时MAC最小;
  • (2)过多的组卷积会增大MAC;
  • (3)网络碎片化会降低并行度;
  • (4)元素级的操作(element-wise)会增加时间消耗。

遵循以上准则提出了一个更有效的网络结构——ShuffleNet V2。下图是ShuffleNet V1(图中a和b)和ShuffleNet V2(图中c和d)组成模块的对比。对比(a)和(b),ShuffleNet V2首先用Channel Split操作将输入按通道分成两部分,一部分直接向下传递,另外一部分则用于计算;然后弃用了1x1的组卷积,将通道混洗操作(Channel Shuffle)移到了最后,并将前面的Add操作用Concat代替。

研究结果 论文进行了大量的实验,与 MobileNet V1/V2ShuffleNet V1DenseNetXceptionIGCV3-DNASNet-A等模型在速度、精度、FLOPs上进行了详细的对比。实验中不少结果都和前面几点发现吻合, ShuffleNet V2 在准确率和速度方面达到了很好的平衡

A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
中文题目:非视距形状重建的费马路径理论

论文作者 Shumian Xin, Sotiris Nousias, Kiriakos N. Kutulakos, Aswin C. Sankaranarayanan,Srinivasa G. Narasimhan, and Ioannis Gkioulekas.
论文地址 CVPR 2019: IEEE Conference on Computer Vision and Pattern Recognition.
https://www.ri.cmu.edu/publications/a-theory-of-fermat-paths-for-non-line-of-sight-shape-reconstruction/
https://www.ri.cmu.edu/wp-content/uploads/2019/05/cvpr2019.pdf
https://www.bilibili.com/video/av65668287/
论文摘要 We present a novel theory of Fermat paths of light between a known visible scene and an unknown object not in the line of sight of a transient camera. These light paths either obey specular reflection or are reflected by the object’s boundary, and hence encode the shape of the hidden object. We prove that Fermat paths correspond to discontinuities in the transient measurements. We then derive a novel constraint that relates the spatial derivatives of the path lengths at these discontinuities to the surface normal. Based on this theory, we present an algorithm, called Fermat Flow, to estimate the shape of the non-line-of-sight object. Our method allows, for the first time, accurate shape recovery of complex objects, ranging from diffuse to specular, that are hidden around the corner as well as hidden behind a diffuser. Finally, our approach is agnostic to the particular technology used for transient imaging. As such, we demonstrate mm-scale shape recovery from picosecond scale transients using a SPAD and ultrafast laser, as well as micron-scale reconstruction from femtosecond scale transients using interferometry. We believe our work is a significant advance over the state-of-the-art in non-line-of-sight imaging.
我们提出了一种新颖的费马光路理论,即已知的可见场景和不处于瞬态摄像机视线范围内的未知物体之间的光路。这些光路要么服从镜面反射,要么被物体的边界反射,从而编码了隐藏物体的形状。我们证明了在瞬态测量中,费马路径对应于不连续点。然后我们推导出一个新的约束,将这些不连续点的路径长度的空间导数与表面法线联系起来。基于这一理论,我们提出了一种算法,称为费马流动,以估计形状的非视线的对象。我们的方法允许,第一次,精确的形状恢复复杂的物体,从漫射到镜面,隐藏在角落里,隐藏在漫射器后面。最后,我们的方法是不可知的特定技术用于瞬态成像。因此,我们演示了利用SPAD和超快激光从皮秒级瞬态恢复毫微米级形状,以及利用干涉术从飞秒级瞬态恢复微米级形状。我们相信,我们的工作是一个重大的进步,在最先进的非视线成像。
研究问题

很多时候摄像头可能无法拍摄全部场景或物体,例如,面对摄像机的物体背面,拐角处的物体或通过漫射器观察到的物体。非视距(non-line-of-sight, NLOS)成像对于许多安全保护应用至关重要。一些传统方法通过分析隐藏场景投射阴影的细微本影和半影,以估计粗糙的运动和结构,或使用光的相干特性来定位隐藏的对象,但很难重建任意隐藏场景的3D形状。基于主动照明的瞬态NLOS成像大多采用快速调制光源和时间分辨传感器,但现有的SPAD强度估计不理想,而且重建NLOS对象的朗伯反射率假设。作者使用NLOS瞬态测量得出几何约束而非强度约束的方法来克服上述限制

上图为非视距成像示例:被遮光板遮挡(a)和被漫射板遮挡(b)的物体表面重建结果与视距扫描结果(c)对比。

研究方法 作者提出了一个新的光费马路径(Fermat path)理论,即光在已知的可见场景和不处于瞬态相机视线范围内的未知物体之间,这些光要么从镜面反射,要么被物体的边界反射,从而编码了隐藏物体的形状。作者证明, 费马路径对应于瞬态测量中的不连续性,间断点的位置仅与NLOS对象的形状有关,与其反射率(BRDF)无关。并推导出一个新的约束条件,它将这些不连续处的路径长度的空间导数与曲面的曲率相关联。基于此理论,作者提出了一种称为费马流(Fermat Flow)的算法,用于估计非视距物体的形状。其关键在于,费马路径长度的空间导数可唯一确定隐藏场景点的深度和法线,再拟合和估算平滑路径长度函数,进一步结合深度和法线获得光滑的网格,从而精确恢复了对复杂对象(从漫反射到镜面反射)形状,范围从隐藏在拐角处以及隐藏在漫射器后面的漫反射到镜面反射。最后,该方法与用于瞬态成像的特定技术无关。 研究结果 作者使用了一些不同BRDF的凹凸几何形状的日常物品,包括半透明(塑料壶),光滑(碗,花瓶),粗糙镜面(水壶)和光滑镜面(球形)等。分别开展了使用SPAD和超快激光从皮秒级瞬态中恢复毫米级形状,以及使用干涉法实现从飞秒级瞬态中恢复毫米级形状的两种实验,实验结果显示重建细节与groundtruth形状非常吻合。

Implicit 3D Orientation Learning for 6D Object Detection from RGB Images
中文题目:从RGB 图像检测6维位姿的隐式三维朝向学习

论文作者  Martin Sundermeyer , Zoltan-Csaba Marton , Maximilian Durner , Rudolph Triebel
论文地址

ECCV 2018: European Conference on Computer Vision.
https://arxiv.org/abs/1902.01275?context=cs

https://arxiv.org/pdf/1902.01275.pdf

论文摘要 We propose a real-time RGB-based pipeline  for object detection and 6D pose estimation. Our novel  3D orientation estimation is based on a variant of the  Denoising Autoencoder that is trained on simulated  views of a 3D model using Domain Randomization.  
This so-called Augmented Autoencoder has several  advantages over existing methods: It does not require  real, pose-annotated training data, generalizes to various  test sensors and inherently handles object and view  symmetries. Instead of learning an explicit mapping  from input images to object poses, it provides an implicit  representation of object orientations defined by  samples in a latent space. Our pipeline achieves stateof-the-art  performance on the T-LESS dataset both in  the RGB and RGB-D domain. We also evaluate on the  LineMOD dataset where we can compete with other  synthetically trained approaches.  
We further increase performance by correcting 3D  orientation estimates to account for perspective errors  when the object deviates from the image center and  show extended results. Our code is available here.
本论文提出了一种 基于RGB的实时目标检测和6D姿态估计。我们的新三维方向估计是 基于去噪自编码器的一个变种,它是在 一个三维模型的模拟视图上使用领域随机化训练
与现有方法相比,这种被称作增强自动编码器有几个优点:它不需要真实的、位置注释的训练数据,可以泛化到各种测试传感器,并天生处理对象和视图的对称性。它 不是学习从输入图像到对象姿态的显式映射,而是提供由潜在空间中的样本定义的对象方向的隐式表示。我们的管道在RGB和RGB- d域的T-LESS数据集上实现了最先进的性能。我们还在LineMOD数据集上进行评估,以便与其他综合训练方法竞争。
当目标偏离图像中心并显示扩展结果时,我们通过 修正3D方向估计来考虑透视误差,进一步提高了性能。我们的代码可以在这里找到。 研究问题 对于诸如移动机器人控制和增强现实之类的应用而言,现代计算机视觉系统中最重要的组件之一就是可靠且快速的6D目标检测模块。至今尚无通用,易于应用,强大且快速的解决方案。原因是多方面的:首先,当前的解决方案通常不足以有效处理典型的挑战;其次,现有方法通常需要某些目标属性。而且,当前的方法在运行时间以及所需带标注的训练数据的数量和种类方面效率都不高。作者提出对 单个RGB图像进行操作,可在很大程度上不需要深度信息,显著增加可用性研究方法

上图为6D目标检测管道具有齐次坐标变换Hcam2obj(右上)和深度细化结果Hcam2obj(refined)(右下)。作者提出了一种基于RGB的实时目标检测和6D姿态估计流程。首先使用SSD(Single Shot Multibox Detector)来提供目标边界框和标识符。其次,在此基础上,采用新颖的3D方向估计算法,该算法基于之前的降噪自动编码器(Denoising Autoencoder)的通用版本,增强型自动编码器(AAE)。AAE使用一种新颖的域随机化策略,模型学到的并不是从输入图像到物体位姿的显式映射,而是会根据图像样本在隐含空间内建立一个隐式的物体位姿表征。因而,训练独立于目标方向的具体表示(例如四元数),避免从图像到方向的一对多映射,由此AAE可处理由对称视图引起的模糊姿态。另外学习专门编码3D方向的表征,同时实现对遮挡,杂乱背景的鲁棒性,并可推广到对不同环境和测试传感器。而且,AAE不需要任何真实的姿势标注训练数据。相反,它被训练为以自我监督的方式编码3D模型视图,克服了对大型姿势标注数据集的需要。下图为AAE训练过程。

研究结果 作者在T-LESS和LineMOD数据集上评估了AAE和整个6D检测管道,仅包括2D检测,3D方向估计和投影距离估计。与最先进的深度学习方法相比,AAE准确性更好,同时效率更高。另外,作者也分析了一些失败案例,主要 源于检测失败或强遮挡

SinGAN: Learning a Generative Model from a Single Natural Image
中文题目:SinGAN:从单张图像学习生成模型

论文作者 Tamar Rott Shaham ,Technion Tali Dekel ,Google Research ,Tomer Michaeli ,Technion
论文地址

ICCV 2019 : IEEE International Conference on Computer Vision.
https://arxiv.org/abs/1905.01164v1

论文摘要

We introduce SinGAN, an unconditional generative  model that can be learned from a single natural image.  Our model is trained to capture the internal distribution of  patches within the image, and is then able to generate high  quality, diverse samples that carry the same visual content  as the image. SinGAN contains a pyramid of fully convolutional  GANs, each responsible for learning the patch distribution  at a different scale of the image. This allows generating  new samples of arbitrary size and aspect ratio, that have  significant variability, yet maintain both the global structure  and the fine textures of the training image. In contrast  to previous single image GAN schemes, our approach is not  limited to texture images, and is not conditional (i.e. it generates  samples from noise). User studies confirm that the  generated samples are commonly confused to be real images.  We illustrate the utility of SinGAN in a wide range of  image manipulation tasks.

我们介绍了SinGAN,一个可以从单一自然图像中学习的无条件生成模型。我们的模型经过训练,能够捕捉图像内部斑块的分布,然后能够生成与图像具有相同视觉内容的高质量、多样化的样本SinGAN包含一个完全卷积的GANs金字塔,每个GANs负责学习图像中不同尺度的patch分布。这允许生成具有显著可变性的任意大小和高宽比的新样本,同时保持训练图像的全局结构和精细纹理。与之前的单图像GAN方案相比,我们的方法不仅限于纹理图像,而且没有条件(即从噪声中生成样本)。用户研究证实,生成的样本通常被混淆为真实图像。我们说明了SinGAN在图像处理任务中的广泛应用。

研究问题

生成对抗网络(Generative Adversarial Nets, GAN)在模拟视觉数据的高维分布方面取得了巨大飞跃。特别是用特定类别的数据集(如人脸、卧室)进行训练时,非条件GAN在生成逼真的、高质量的样本方面取得了显著成功。但对高度多样化、多种类别的数据集(如ImageNet)的模拟仍然是一项重大挑战,而且通常需要根据另一输入信号来调整生成或为特定任务训练模型。对单个自然图像中各种图像块的内部分布进行建模已被公认为是许多计算机视觉任务的有用先验。作者将GAN带入到一个新领域—从单个自然图像中学习非条件生成模型。单个自然图像通常具有足够的内部统计信息,可学习到强大的生成模型,而不必依赖某个相同类别的数据集。为此,作者提出了一个新的单图像生成模型SinGAN,能够处理包含复杂结构和纹理的普通自然图像的神经网络

相对于左边的原始图像,SinGAN生成新的逼真的图像样本,该样本在创建新的对象配置和结构的同时保留原始图像块分布。

研究方法 作者的目标是学习一个非条件生成模型,该模型可捕获单个训练图像的内部统计数据。 此任务在概念上与常规GAN设置相似,不同之处在于,训练样本是单个图像的多尺度的图像块,而非整个图像样本。为此,SinGAN生成框架由具有层级结构的patch-GANs(马尔可夫判别器)组成,其中每个判别器负责捕获不同尺度的分布,这是第一个为从单个图像进行内部学习而探索的网络结构。图像样本从 最粗尺度开始,然后依次通过所有的生成器直到最细尺度,且每个尺度都注入噪声。所有生成器和判别器具有相同的感受野,因此,随着生成过程推进可以捕获更细尺寸的结构。在训练时,对抗损失采用WGAN-GP损失,以增加训练稳定性。并设计了一种重建损失来确保可以生成原始图像的特定噪声图谱集合。 研究结果 作者在图像场景跨度很大的数据集上进行了测试。直观上, SinGAN很好地 保留目标的全局结构和纹理信息,很真实地合成了反射和阴影效果。再使用AMT真假用户调研和FID的单幅图像版本进行量化。AMT测试结果表明可以生成很真实的样本,对于细节保留的也更多,人类判别的混淆率较高。FID结果与AMT一致。

参考文章:《2019中国人工智能发展报告》

发布了63 篇原创文章 · 获赞 7 · 访问量 3396

Paper之CVPR&ICCV&ECCV:2009年~2019年CVPR&ICCV&ECCV(国际计算机视觉与模式识别会议&国际计算机视觉大会&欧洲计算机视觉会议)历年最佳论文简介及其解读

猜你喜欢

转载自blog.csdn.net/weixin_44523062/article/details/104565278
今日推荐