MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

摘要
我们发明了一类有效的为了可移动的设备和嵌入式视觉的应用的模型叫做MobileNets. MobileNets是基于一种使用深度可分割卷积去建立轻量型网络结构的流线型结构。我们引进了两个简单的超参数，这两个超参数在延迟和准确率方面达到了平衡。这些超参数允许模型建立者对于他们的模型去选择正确大小的模型建立在这个问题的限制上，我们进行了昂贵的实验在资源和准确率平衡方面，同时在Imagenet 分类方面对比其它受欢迎的模型表现的不错。然后进行了广泛的运用Mobilenet去阐述它的有效性，包括目标检测，细粒度分类，面部识别和大规模geo定位
1 简介
自从Alexnet在ILSVRC 2012赢得了冠军深度卷积神经网络变得受欢迎，卷积神经网络也开始在开始在计算机视觉方面变得很普遍。一般的趋势是设计更深和更复杂的网络目的是获得更高的准确率。然而，这些提升准确率的进步在对于网络在大小和速度方面更有效是不必要的。在很多真实应用中列如机器人、自动驾驶汽车和增强现实，这些认知任务需要在实时的部署在有计算限制的平台上。
这篇论文形容了一种有效的网络结构和一组两个超参数宽度乘法和分辨率乘法出发目的是建立非常小和低资源的模型，这个模型可以可以很容易的适合设计及要求对于移动设备和嵌入式视觉应用。第二部分回顾建立小模型方面的工作，第三部分描述了Mobilenet 结构和两个超参数第四部分描述了实验在imagenet 第五部分做了个总结
2 先前的工作
最近的文章对建立小而有效的网络很感兴趣。许多不同的方法可以被一般的归类为压缩提前训好的网络或者直接训练小型网络。这篇文章提出了一种网络结构允许模型发展对于其应用特别的挑选小的网络根据资源的限制(延迟，大小)。MobileNets首先很注意对资源的优化同时也对小网络做了屈服，许多论文在小网络上集中注意力在大小方面，却没有考虑速度。
MobileNets首先是建立在深度分割卷积上，首先由 Rigid-motion scattering for image classification.提出，随后在Inception模型中得到应用去减少前几层的计算量。FlaTtened 网络建立一个网络缺乏全因式分解式卷积同时显示出极端的因式分解式网络的潜能。独立于这篇论文，Factorized 网络引入了相似的因式分解卷积同时也使用了拓扑链接。随后，Xception网阐述了怎样去缩小深度分割过滤器去超过Inception V3 网络，另一个小网络是SqueezeNet,它使用Bottleneck 结构去设计非常小的网络，其它减少计算量的网络包括结构转换网络和深度油炸卷积
一个不同的方法得到小型网络是收缩，因式分解或压缩预训练好的网络。压缩建立在生产量子化，哈希和剪枝，向量量子化和哈夫曼编码都在文章中有提到。其他的各种不同的因式分解被提出去加速预先训练好的网路。其它训练小型网络的方法叫做蒸馏，使用大网络去教小网络。这在我们的方法中有包含，在第四章我们也有一些使用案例，了一个合并方法是低比特网络。
这里写图片描述
3. MobileNet Architecture
在这部分我们首先描述了MobilneNet模型的核心层是建立在深度可分割过滤器上。然后描述了MobileNet 网络结构，包括对两个模型收缩参数的描述（宽度乘数和分辨率乘数）
3.1. Depthwise Separable Convolution
这个MobileNet 模型是建立在深度可分割卷积上，深度可分割卷积是一种因式分解卷积，它把标准的卷积分解成一个深度卷积和一个1*1的点卷积。对于MobileNet这个深度卷积把单一过滤应用在每个输入通道上。然后点卷积运用1*1大小的卷积是结合深度卷积的输出。一种标准的卷积既能过滤输入，又能在一步中将输入组合成一组新的输出。深度可分割卷积把这个分成两层，一个分割层为了过滤，另一个分割层为了结合。这个因式分解彻底的减少了计算量和模型大小。图2显示了一个标准的卷积被分解为一个深度卷积和一个181的点卷积。
一个标准的卷积层接受输入列如 $D_{F}$ X $D_{F}$ XM特征图F并产生 $D_{F}$ X $D_{F}$ XM特征图G, $D_{F}$ 是空间宽度和高度对于一个输入的正方形特征图，M是输入通道大小， $D-{G}$ 是输出的正方形特征图的空间宽度和高度，N是输出通道大小。
标准卷积层由卷积核K参数化的计算为 $D_{K}$ X $D_{K}$ XMXN, $D_{K}$ 是卷积核的空间温度，M是输入通道大小，N是输出通道大小，和之前定义的一样。
标准卷积的特征图输出计算是（假设strides是1padding也是1）：
这里写图片描述
标准卷积运算量计算为：
$D_{K}$ $D_{K}$ *M*N $D_{F}$ * $D_{F}$
运算量依赖于输入通道M,输出通道N和卷积核大小 $D_{K}$ 以及特征图大小 $D_{F}$ .MobileNet解决了这种关系和他们的交互。首先使用利用深度可分割网络去打破输出通道和卷积核大小的交互。
标准的卷积操作对过滤特征有影响建立在卷积核和解和特征目的是阐述新的表达，过滤和结合步骤可以被分成两部分通过使用因式分解卷积叫做深度可分割卷积未来充分减少运算量。
深度可分割网络是由两层组成的：深度卷积和点卷积，我们使用深度卷积把单个卷积核运用在每个输入通道上，然后用1*1点卷积去结合深度卷积层的输出。MobileNet在每一层后使用batchnorm和Relu
深度卷积对每个输入通道的单个卷积可以被写作：
这里写图片描述
\hat{K}是深度卷积核，size是 $D_{K}$ * $D_{K}$ *M， $m_{th}$ 卷积和在\hat{K}被运用到 $m_{th}$ 在F的通道上去产生 $m_{th}$ 通道的特征图\hat{G}的输出
深度卷积的运算量：
$D_{K}$ $D_{K}$ *M* $D_{F}$ * $D_{F}$
深度卷积是非常有效的相当于标准卷积来说，然而它只过滤输入通道，并不结合他们去产生新的特征。所以一个额外的深度卷积通过1*1卷积是需要的去产生新的特征，
深度卷积和1*1点卷积的结合被叫做深度可分割网络，Rigid-motion scattering for image classification.中率先提出。
深度可分割卷积运算量：
这里写图片描述
最后做个对比：

MobileNet使用3×3深度可分割卷积它的计算量比标准卷积少8到9倍但在精度上只有很小的降低在第四节。空间维度的额外分解，如in[16, 31]并没有节省太多额外的计算量因为很少的计算被花费在深度卷积中。
这里写图片描述

MobileNet论文翻译

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

猜你喜欢