Going deeper with convolutions - Googlenet papers translation

Going deeper with convolutions

Summary

On ImageNet large-scale visual recognition Challenge 2014 (ILSVRC14) We propose convolution depth structure of a neural network, code-named "Inception", and achieved the best result of the new image classification and detection. The main features of this architecture is to improve the utilization of computing resources within the network. This is achieved through careful design, which allows to increase the depth and width of the network computing while maintaining the same budget. In order to optimize the quality of the network architecture design principles and the basis of Hebbian-based multi-scale process intuitive. We use a special form of the model file submitted ILSVRC14 called "googlenet", which is a deep network layer 22, which mass will be evaluated at the background detection and classification.

1 Introduction

Over the past three years, mainly due to the further development of learning and convolution networks [10], image recognition and object detection capability is growing at an unprecedented rate going forward. An encouraging news is the result of more powerful hardware, larger data sets and more models of this progress is not just the majority, but mainly new and improved ideas, algorithms, and network structure results . For example, ILSVRC 2014 race except for the foremost classify input data set other than detection purposes, no new data sources. Our GoogleNet ILSVRC report submitted to the 2014 is actually two years ago Krizhevsky et al [9] award-winning architecture using the parameters of 1/12, but also more accurate. In terms of target detection, not from the biggest gain in a separate model using deep or larger networks, but from deep synergy classical architecture and computer vision, such Girshick et al [6] R-CNN algorithm.

Another significant factor is that with mobile computing and embedded computing continues to develop, the efficiency of our algorithm is becoming increasingly important - especially for the use of their abilities and memory. Zhidezhuyi, it is precisely this factor includes consideration to arrive at the depth of the architecture in this article, rather than simply in order to improve accuracy. For most experiments, the design of these models is to keep the 1.5 billion multiply-add calculation of the budget in the reasoning, so they are not ultimately become purely academic curiosity, but can be put into use in the real world at a reasonable cost, even the same is true on large data sets.

This article will focus on an efficient network thesis on computer vision deep neural network architecture, code-named "Inception", its name comes from Lin et al [12] in the network, as well as the famous "We need deeper" meme network [1]. In our example, the "depth" of the term has two different meanings: First, we introduced a new organizational level in the form of "Inception module", and increases the depth of the network in a more direct sense. In general, it can be regarded as the initial model paper [12] logical vertices, while the inspiration and guidance from theoretical work Arora et al [2]. The advantage of this architecture has been validated in experiments on ILSVRC 2014 classification and testing challenges in this regard, its performance is superior to the current advanced level.

 RELATED WORK

Starting LeNet-5 [10], a convolutional neural network (CNN) typically have a standard configuration - convolution stacked layer (hereinafter, optionally adding a contrast normalization and maximum pool) followed by one or more layers fully connected . This basic design variant is particularly popular in image classification literature, and challenges mnist, CIFAR and ImageNet classification made by far the best results [9,21] on. For large data sets, such as ImageNet, the recent trend is to increase the number of layers [12] and the size of the layer [21, 14], while using Dropout [7] to solve the problem of over-fitting.

Although concerns about the maximum cell layer will lead to accurate spatial information is missing, but [9] the same convolutional network structure is also successfully used to locate the [9,14], the detection target [6,14,18,5] and human pose estimation [19].

Inspired by the primate visual cortex Neuroscience model, Serre et al [15] using a Gabor filter of a fixed set of different sizes to deal with multiscale. We used a similar structure. However, the two-layer depth model [15] immobilized contrast, all filters are in the initial model Inception learning. Further, the Inception layer is repeated a plurality of times to obtain a depth model of a layer 22 GoogLeNet model.

Network-in-Network is Lin et al. [12] One way to increase the performance capabilities of neural networks proposed. When the layer is applied to a convolution, this method can be seen as an extra layer of convolution 1 × 1, then a typical linear calibration activation [9]. This allows it to be easily integrated into the current CNN pipeline. We use this method in architecture a lot. However, in our setup, 1 × 1 convolution has a dual purpose: The key is, they are primarily used as dimension reduction module to eliminate bottlenecks convolution calculation, otherwise it will limit the size of our network. This not only allows to increase the depth of the network, but also allows us to increase the width of the network without the significant loss of performance.

The main objective of the present detection method is Girshick et al convolutional neural network (R-CNN) [6] Based on the region. R-CNN the entire detection problem into two sub-problems: First, one class independent manner, using low-level features like color and consistency super pixels to produce a potential target position candidate region, and then use the classifier to identify these positions CNN Object category on. Such an approach takes advantage of the accuracy of the two-stage low-level feature segmentation of the bounding box, CNN also used the current classification of very powerful capability. We have submitted a test report using similar methods, but these improvements are carried out in two stages, for example, a higher recall bounding box using multi-cartridge [5] forecast, and the bounding box of better classification proposal integration method.

 3 motivation and deep consideration

The most direct way to improve performance is to increase the DNN their size. This includes increasing the depth (number of layers) of the network and its width: the number of each unit. This is a simple and safe way to train high-quality model, especially considering the large number of labeled training data availability. However, this simple solution has two major drawbacks.

Larger usually means more parameters, which makes it easier to expand the network after overfitting, especially in the limited number of examples of the training set of labeled case. This could become a major bottleneck, because creating high-quality training set may be difficult and expensive, especially if you need expert assessors to distinguish (even concentrated in the 1000 class ILSVRC sub) categories such as fine-grained visual ImageNet, such as 1 shown in FIG.

 Figure 1: 1000 in two different categories like ILSVRC 2014 classification Challenge. These categories need to distinguish between areas of knowledge.

Another disadvantage is the size of the network increases uniformly sharp increase in the use of computing resources. For example, in depth visual network, if the two layers are linked convolution, any number of filters uniformly increasing their growth can lead to a secondary calculation. If additional capacity is not used effectively (for example, if most of the final weights close to zero), so a lot of computing will be wasted. Since the calculation of the budget is always limited in practice, and therefore more inclined to efficient allocation of computing resources, rather than any increase in the scale, even if the main goal is to improve the quality of the result.

A basic way to solve these two problems is to replace the whole connection layer is fully connected layer sparse, even within the convolution layer. In addition to imitate biological systems, due Arora et al pioneering work, which will also have the advantage of a more solid theoretical basis [2]. Their main result is that, if the probability distribution of the data set can use a large, very sparse deep neural networks to represent the optimal network topology can be activated by a layer of pre-analysis correlation and clustering statistics are highly correlated neurons of layers to build. Despite rigorous mathematical proof required strong conditions, but this statement with the well-known Hebbian principle resonates - with excitation of neurons, connected together - which shows that, even in practice, under less stringent conditions, such the basic idea is also applicable.

缺点是,今天的计算架构对于非均匀稀疏数据结构的数值计算效率很低。即使算术运算的数量减少了100倍,查找和缓存丢失的开销仍然占主导地位,因此切换到稀疏矩阵是不会有好处的。 随着稳定提升和高度调整的数值库的应用,差距仍在进一步扩大,这些数值库允许极度快速密集的矩阵乘法,利用底层的CPU或GPU硬件[16, 9]的微小细节。此外,非均匀    的稀疏模型需要更复杂的工程和计算基础设施。目前大多数面向视觉的机器学习系统都是利用空间域的稀疏性来实现的。但是,卷积是作为与前一层中的补丁的密集连接的集合来实现的。自[11]以来,为了打破对称性和提高学习能力,卷积网习惯上上在特征维中使用随机和稀疏连接表,以更好地优化并行计算,这种趋势又回到了与[9]完全连接的状态。结构的均匀性和大量的过滤器和更大的批量允许使用高效的密集计算。

这就提出了一个问题:是否有希望实现下一个中间步骤:一种利用额外稀疏性的体系结构,即使是滤波器级,但正如理论所建议的那样,能通过利用密集矩阵上的计算来利用我们当前的硬件。关于稀疏矩阵计算的大量文献(例如[3])表明,将稀疏矩阵聚类成相对稠密的子矩阵,往往会给稀疏矩阵乘法提供最先进的实际性能。似乎不难想象,在不久的将来,类似的方法将被用于非均匀的深度学习体系结构的自动化构建。

Inception架构开始是作为案例研究,用于评估一个复杂网络拓扑构建算法的假设输出,该算法试图近似[2]中所示的视觉网络的稀疏结构,并通过密集的、容易获得的组件来覆盖假设结果。尽管这是一项高度投机性的工作,但只有在对拓扑的精确选择进行了两次迭代之后,我们已经可以看到与基于[12]的参考架构相比所取得的一些进展。在进一步调整学习率、超参数和改进的训练方法之后,我们确定了该Inception结构对于[6]和[5]的基本网络在定位和目标检测方面是特别有用的。有趣的是,虽然大多数最初的架构选择都经过了彻底的质疑和测试,但最终它们至少在本地是最优的。

然而必须谨慎:尽管Inception架构在计算机上领域取得成功,但这是否可以归因于构建其架构的指导原则仍是有疑问的。要确保这一点需要更彻底的分析和验证:例如,如果基于以下原则的自动化工具会发现类似的、但更好的视觉网络拓扑结构。最令人信服的证据是,自动化系统是否会创建网络拓扑,从而在其他领域使用相同的算法,但具有非常不同的全局架构,从而获得类似的收益。至少,Inception架构的最初成功为在这个方向上激动人心的未来工作提供了坚定的动力。

 4 架构细节

Inception架构的主要思想是找出卷积视觉网络中最优的局部稀疏结构是如何被容易获得的密集分量所近似与覆盖的。请注意,假定转换不变性意味着我们的网络将由卷积积木构建。请注意,假定平移不变性意味着我们的网络将由卷积积木构建。Arora等人[2]提出一种逐层结构,对上一层的相关统计量进行分析,并将其聚成一组具有高度相关性的单元。这些聚类形成了下一层的单元并与前一层的单元连接。我们假设来自前一层的每个单元对应于输入图像的某个区域,并且这些单元被分组为滤波器组。在较低层(接近输入层),相关单元集中在局部区域。这意味着,我们最终会有大量的团簇集中在一个单一的区域,它们可以在下一层被1×1的卷积覆盖,就像[12]中所建议的那样。然而也可以预期,将存在更小数目的在更大空间上扩展的聚类,其可以被更大块上的卷积覆盖,在越来越大的区域上块的数量将会下降。为了避免块校正的问题,目前Inception架构形式的滤波器的尺寸仅限于1×1、3×3、5×5,这个决定更多的是基于便易性而不是必要性。这还意味着所建议的体系结构是所有这些层的组合,它们的输出滤波器组连接成一个单一的输出矢量,形成下一阶段的输入。此外,由于池操作对于当前最先进的卷积网络的成功至关重要,它建议在每个这样的阶段增加一条可供选择的并行池路径,这也应具有额外的有益效果(见图2(A)。

由于这些“Inception模块”是层叠在一起的,它们的输出相关统计量必然会有所不同:由于较高的抽象特征被较高的层所捕捉,它们的空间浓度预计会降低,这意味着3×3和5×5卷积的比率应该随着我们移动到更高的层而增加。

上述模块的一个大问题是在具有大量滤波器的卷积层之上,即使适量的5×5卷积也可能是非常昂贵的,至少在这种朴素形式中有这个问题。一旦将池单元添加到混合中,这个问题就会更加明显:它们的输出过滤器的数量等于上一阶段的过滤器的数量。将池层的输出与卷积层的输出合并将不可避免地导致从一个阶段到另一个阶段的输出数量的增加。即使这个体系结构可能覆盖最优的稀疏结构,它也会非常低效率地完成它,在几个阶段内导致计算崩溃。

这导致了Inception架构的第二个想法:在计算要求会增加太多的地方,明智地减少维度和映射。这是基于嵌入式的成功:即使是低维嵌入也可能包含大量关于相对较大的图像修补程序的信息。然而,嵌入以密集、压缩的形式表示信息,压缩后的信息更难建模。我们希望在大多数地方保持我们的表示稀疏(根据[2]的要求),并且只有当信号必须聚集在一起时才对它们进行压缩。也就是说,在昂贵的3×3和5×5卷积之前,使用1×1卷积来进行计算约简。除了用作减少(参数)外,它们还包括使用经校正的线性激活,使它们具有双重用途。最后的结果如图2(B)所示。

一般来说,Inception网络是由上述类型的模块相互叠加而成的网络,偶尔会有跨越2的最大池层,以将网格的分辨率减半。由于技术原因(训练期间的内存效率),似乎只在较高层开始使用初始模块,而以传统的卷积方式保持较低层的使用是有益的。这不是绝对必要的,只是反映了我们目前实现中的一些基础结构效率低下。

这个体系结构的主要好处之一是,它允许在每个阶段显着地增加单元数量, 而不会在后面的阶段出现计算复杂度不受控制的爆炸。维数约简的普遍使用使得在上一阶段的大量输入滤波器被屏蔽到下一层,首先减小它们的维数,然后再将它们与大的块大小集合在一起。该设计的另一个实际有用的方面是,它与直觉保持一致,即视觉信息应该在不同的尺度上进行处理,然后进行聚合,以便下一阶段能够同时从不同的尺度中提取特征。

通过改进计算资源的使用,可以增加每个阶段的宽度和阶段数,而不会陷入计算困难。另一种利用初始架构的方法是创建稍微低劣的,但计算成本较低的版本。我们已经发现,所有包含的旋钮和杠杆都允许对计算资源进行控制平衡,从而使网络比具有非初始架构的类似执行网络快2−3×,但是这需要在此时进行仔细的手工设计。

 5 GoogLeNet

我们在ilsvrc 14竞赛中选择GoogLeNet作为我们的团队名称。这个名字是对亚恩莱昂开拓性的 LeNet 55网络[10]的一种敬意。我们还使用GoogleNet来作为我们提交的竞赛中所使用的Inception架构的特例。我们还使用了一个更深更广的初始网络,其质量稍差,但将其添加到集合中似乎可以稍微提高效果。我们忽略了网络的细节,因为我们的实验表明,精确的架构参数的影响相对较小。在这里,为了演示目的,表1描述了最成功的特定实例(名为GoogLeNet)。在我们集成的7种模型中,有6种采用了完全相同的拓扑结构(用不同的采样方法训练)。

所有的卷积都使用了修正线性激活,包括Inception模块内部的卷积。在我们的网络中感受野是在均值为0的RGB颜色空间中,大小是224×224。“#3×3 reduce”和“#5×5 reduce”表示在3×3和5×5卷积之前,降维层使用的1×1滤波器的数量。在pool proj列可以看到内置的最大池化之后,投影层中1×1滤波器的数量。所有的这些降维/投影层也都使用了线性修正激活。

该网络的设计考虑了计算效率和实用性,因此可以在单个设备上运行,包括那些计算资源有限的设备,尤其是内存占用较少的设备。当只计算带有参数的层时,网络有22层深度(如果计算pooling 池,则为27层)。用于建造网络的层(独立构建块)的总数约为100层。然而,这个数字取决于所使用的机器学习基础设施系统。在分类器之前使用平均池是基于[12]的,尽管我们的实现不同之处在于我们使用了额外的线性层。 线性层使我们的网络能很容易地适应其它的标签集,但它主要是方便,我们不期望它有一个重大的影响。我们发现从全连接层变为平均池化,提高了大约top-1 %0.6的准确率,然而即使在移除了全连接层之后,Dropout的使用还是必不可少的。

考虑到网络的相对较大的深度,以有效的方式将梯度传播回所有层的能力是一个值得关注的问题。一个有趣的观点是,相对较浅的网络在这项任务上的强大性能表明,网络中间层产生的特性应该是非常有区别的。通过增加与这些中间层相连接的辅助分类器,我们期望在分类器的较低阶段增强识别,增加传播回来的梯度信号,并提供额外的正则化。这些分类器采用设置在初始(4a)和(4d)模块的输出之上的较小卷积网络的形式。在训练过程中,它们的损失以折扣权重加到网络的总损失中(辅助分类器的损失加权0.3)。在推理时,这些辅助网络被丢弃。

包括辅助分类器在内的附加网络的具体结构如下:

  • 一个滤波器大小5×5,步长为3的平均池化层,导致(4a)阶段的输出为4×4×512,(4d)的输出为4×4×528。

  • 具有128个滤波器的1×1卷积,用于降维和修正线性激活。

  • 一个全连接层,具有1024个单元和修正线性激活。

  • 丢弃70%输出的丢弃层。

  • 使用带有softmax损失的线性层作为分类器(作为主分类器预测同样的1000类,但在推断时移除)。

 6 训练方法

我们的网络使用分布式机器学习系统对网络进行了训练,使用了少量的模型和数据并行性。尽管我们仅使用一个基于CPU的实现,但粗略的估计表明GoogLeNet网络可以用更少的高端GPU在一周之内训练到收敛,主要的限制是内存使用。我们的训练采用异步随机梯度下降的0.9动量[17],固定的学习速率时间表(降低4%的学习率每8个时代)。利用Polyak平均[13]建立了推理时使用的最终模型。

图像采样方法在过去几个月的竞赛中发生了重大变化,并且已收敛的模型(可以)在其他选项上进行了训练,有时还结合着超参数的改变,例如丢弃和学习率,因此,很难对培训这些网络的最有效的单一方式给予明确的指导。使问题更加复杂的是,一些模型主要是在较小的相对裁剪(crop)上进行训练,另一些是在[8]的启发下训练更大的crop。不过,有一种处方在比赛后得到了很好的验证,它的尺寸均匀分布在图像区域的8%—100%之间,并在3/4和4/3之间随机选择其长宽比的各种大小的图像块进行采样。此外,我们还发现,AndrewHoward[8]的光度畸变在一定程度上有助于防止过度拟合。此外,我们还开始使用随机插值方法(双线性、面积、最近邻和立方,概率相等)来比较晚地调整大小,并结合其他超参数变化,因此无法确定最终结果是否受到其使用的积极影响。

 7 ILSVRC 2014分类挑战设置和结果

 ILSVRC 2014分类挑战涉及将图像分类为ImageNet层次结构中的1000个叶节点类别之一的任务。大约有120万张图像用于培训,5万张用于验证,10万张用于测试。每幅图像都与一个地面真相分类器相关联,并且性能是基于最高得分分类器预测来衡量的。通常报告两个数字:top-1准确率,比较实际类别和第一个预测类别,top-5错误率,比较实际类别与前5个预测类别:如果图像实际类别在top-5中,则认为图像分类正确,不管它在top-5中的排名。挑战赛使用top-5错误率来进行排名。

我们参加了这次挑战,没有使用外部数据进行培训。除了本文中提到的训练技术之外,我们还在测试中采用了一套技术来获得更高的性能,我们将在下面对此进行详细的阐述。

  1. 我们独立地培训了7个版本的相同的谷歌网模型(包括一个更广泛的版本),并与他们一起进行了集成预测。这些模型经过相同的初始化(甚至具有相同的初始权重(主要是由于疏忽)和学习速率策略的训练,它们只在采样方法和看到输入图像的随机顺序上有所不同。

  2. 在测试中,我们采用比Krizhevsky等人[9]更积极的裁剪方法。具体来说,我们将图像归一化为四个尺度,其中较短维度(高度或宽度)分别为256,288,320和352,取这些归一化的图像的左,中,右方块(在肖像图片中,我们采用顶部,中心和底部方块)。对于每个方块,我们将采用4个角以及中心224×224裁剪图像以及方块尺寸归一化为224×224,以及它们的镜像版本。这导致每张图像会得到4×3×6×2 = 144的裁剪图像。前一年的输入中,Andrew Howard[8]采用了类似的方法,经过我们实证验证,其方法略差于我们提出的方案。我们注意到,在实际应用中,这种积极裁剪可能是不必要的,因为存在合理数量的裁剪图像后,更多裁剪图像的好处会变得很微小(正如我们后面展示的那样)。

  3. 在多个作物和所有分类器上,对Softmax概率进行平均,以获得最终的预测结果。在我们的实验中,我们分析了验证数据的替代方法,例如对裁剪的最大池和对分类器的平均,但它们导致的性能不如简单平均。

在本文的其余部分,我们分析了影响最终提交的总体性能的多种因素。

    我们在挑战中的最后提交在验证和测试数据上都获得了6.67%的前5位错误,在其他参与者中排名第一。这与2012年的监督方法相比,相对减少了56.5%,与前一年的最佳方法(Clarifai)相比,相对减少了40%,这两种方法都使用外部数据来培训分类器。下表显示了一些性能最好的方法的统计数据。

我们还通过改变模型的数量和在下表中预测图像时使用的作物数量来分析和报告多种测试选择的性能。当我们使用一个模型时,我们选择了一个在验证数据上具有最低前1错误率的模型。所有数字 都报告在验证数据集中,以避免与测试数据统计数据过分匹配。

8 ILSVRC 2014检测挑战设置和结果

ILSVRC检测任务是在200个可能的类中,围绕图像中的对象生成包围框。如果检测到的对象与地面真相类相匹配,并且它们的边界框至少重叠50%(使用Jaccard索引),则它们就算作正确的对象。多余的检测被视为假阳性并受到惩罚。与分类任务相反,每幅图像可能包含多个对象,也可能没有对象,它们的比例可能从大到小。报告的结果使用平均精度均值(mAP)。

Google网所采用的检测方法与r-CNN的方法类似[6],但作为区域分类器的起始模型得到了扩展。此外,通过将选择性搜索[20]方法与多框[5]预测相结合,改进了区域建议步骤,从而提高了目标包围盒召回率。为了减少假阳性的数量,增加了2倍的超像素大小。这将选择性搜索算法中的提议减半。我们总共补充了200个来自多盒结果的区域生成,大约60%的区域生成用于[6],同时将覆盖率从92%提高到93%。减少区域生成的数量,增加覆盖率的整体影响是对于单个模型的情况平均精度均值增加了1%。最后,等分类单个区域时,我们使用了6个GoogLeNets的组合。这导致准确率从40%提高到43.9%。注意,与R-CNN相反,由于缺少时间我们没有使用边界框回归。

我们首先报告顶级检测结果,并显示自第一版检测任务以来的进展情况。与2013年的结果相比,准确率几乎翻了一番。表现最好的团队都使用卷积网络。我们报告表4中的官方分数和每个团队的共同策略:使用外部数据、集成模型或上下文模型。外部数据通常是用于预训练的ilsvrc 12分类数据,该模型随后对检测数据进行细化。一些团队还提到了本地化数据的使用。由于定位任务边界框的很大一部分不包含在检测数据集中,因此可以使用该数据对一个通用的边界盒回归器进行预训练,就像在预训练中使用分类一样。

在表5中,我们仅比较了单个模型的结果。最好性能模型是Deep Insight的,令人惊讶的是3个模型的集合仅提高了0.3个点,而GoogLeNet在模型集成时明显获得了更好的结果。

 9 总结

我们的结果似乎提供了一个确凿的证据,证明用现有的密集积木来逼近预期的最优稀疏结构是改进计算机视觉神经网络的一种可行方法。该方法的主要优点是与较浅和较小的网络相比,在计算需求略有增加的情况下获得了显著的质量增益。还要注意的是,我们的检测工作是有竞争力的,尽管既没有使用上下文,也没有执行边界框回归,这一事实为初始架构的强度提供了进一步的证据。虽然我们的方法可以通过更昂贵的、深度和宽度相似的网络来实现类似的结果质量,但是我们的方法提供了确凿的证据,证明移动到稀疏的体系结构在一般情况下是可行的和有用的。这表明未来有希望在[2]的基础上,以自动化的方式创造更稀疏、更精细的结构。

10 致谢

我们要感谢Sanjeev Arora和Aditya Bhas卡拉就[2]进行的富有成果的讨论。我们还要感谢迪贝利夫[4]队的支持,特别是对拉贾特·蒙加、乔恩·希透镜、亚历克斯·克里泽夫斯基、杰夫·迪安、伊利亚·萨茨卡特和安德里亚·弗洛姆的支持。我们还要感谢汤姆·杜里格和宁·叶在光度畸变方面的帮助。此外,如果没有查克、罗森博格和哈特尼格·亚当的支持,我们的工作就不可能完成。

参考文献

[1] Know your meme: We need to go deeper. http://knowyourmeme.com/memes/we-need-to-go-deeper. Accessed: 2014-09-15.

[2] S. Arora, A. Bhaskara, R. Ge, and T. Ma. Provable bounds for learning some deep representations. CoRR, abs/1310.6343, 2013.

[3] U. V. C ̧atalyu ̈rek, C. Aykanat, and B. Uc ̧ar. On two-dimensional sparse matrix partitioning: Models, methods, and a recipe. SIAM J. Sci. Comput., 32(2):656–683, Feb. 2010.

[4] J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, M. Mao, M. Ranzato, A. Senior, P. Tucker, K. Yang, Q. V. Le, and A. Y. Ng. Large scale distributed deep networks. In P. Bartlett, F. Pereira, C. Burges, L. Bottou, and K. Weinberger, editors, NIPS, pages 1232–1240. 2012.

[5] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In CVPR, 2014.

[6] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition, 2014. CVPR 2014. IEEE Conference on, 2014.

[7] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. CoRR, abs/1207.0580, 2012.

[8] A. G. Howard. Some improvements on deep convolutional neural network based image classification. CoRR, abs/1312.5402, 2013.

[9] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25, pages 1106–1114, 2012.

[10] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Comput., 1(4):541–551, Dec. 1989.

[11] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.

[12] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013.

[13] B. T. Polyak and A. B. Juditsky. Acceleration of stochastic approximation by averaging. SIAM J. Control Optim., 30(4):838–855, July 1992.

[14] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs/1312.6229, 2013.

[15] T. Serre, L. Wolf, S. M. Bileschi, M. Riesenhuber, and T. Poggio. Robust object recognition with cortex-like mechanisms. IEEE Trans. Pattern Anal. Mach. Intell., 29(3):411–426, 2007.

[16] F. Song and J. Dongarra. Scaling up matrix computations on shared-memory manycore systems with 1000 cpu cores. In Proceedings of the 28th ACM Interna- tional Conference on Supercomputing, ICS ’14, pages 333–342, New York, NY, USA, 2014. ACM.

[17] I. Sutskever, J. Martens, G. E. Dahl, and G. E. Hinton. On the importance of initialization and momentum in deep learning. In ICML, volume 28 of JMLR Proceed- ings, pages 1139–1147. JMLR.org, 2013.

[18] C.Szegedy,A.Toshev,andD.Erhan.Deep neural networks for object detection. In C. J. C. Burges, L. Bottou, Z. Ghahramani, and K. Q. Weinberger, editors, NIPS, pages 2553–2561, 2013.

[19] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. CoRR, abs/1312.4659, 2013.

[20] K. E. A. van de Sande, J. R. R. Uijlings, T. Gevers, and A. W. M. Smeulders. Segmentation as selective search for object recognition. In Proceedings of the 2011 International Conference on Computer Vision, ICCV ’11, pages 1879–1886, Washington, DC, USA, 2011. IEEE Computer Society.

[21] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In D. J. Fleet, T. Pajdla, B. Schiele, and T. Tuytelaars, editors, ECCV, volume 8689 of Lecture Notes in Computer Science, pages 818–833. Springer, 2014.

 

声明:本文翻译论文目的只是为了学习,若有侵权之处,请联系作者删除博文,感谢!

  

Guess you like

Origin www.cnblogs.com/baby-lily/p/12609397.html