[论文笔记] MobileNet

作者团队：谷歌
关注点：同时优化网络模型的速度与大小

related works

A1、网络受depth wise seperable convolution (在Inception、Xception中也有用到)的启发
A2、factorized network
A3、Squeezenet使用到了bottleneck的方法
B1、对预训练网络的shrinking、factorizing以及compressing（涉及乘积量化、哈希、减枝、向量量化、霍夫编码等）
B2、distillation，大型网络teach小网络
B3、low bit network

模型结构

1、depth wise seperable convolution

将标准卷积分解成为depthwise convolution和pointwise convolution。类似的分解卷积的方法之前也接触过，在学习数字图像处理时，将二维卷积核分解成两个一维卷积核能够减少计算量与参数量。

假设标准卷积的输入为 $D_F\times{D_F}\times{M}$ ，输出为 $D_F\times{D_F}\times{N}$ ，由上图，则标准卷积的参数量为 $D_K\cdot{D_K}\cdot{M}\cdot{N}$ ,计算量为 $D_K\cdot{D_K}\cdot{M}\cdot{N}\cdot{D_F}\cdot{D_F}$
depthwise seperable convolution 的参数量为 $D_K\cdot{D_K}\cdot{M}+M\cdot{N}$ ，计算量为： $D_K\cdot{D_K}\cdot{M}\cdot{D_F}\cdot{D_F}+M\cdot{N}\cdot{D_F}\cdot{D_F}$
那么，depthwise separable 与标准卷积参数量之比为
$\frac{Param_{dws}}{Param_{sta}}=\frac{D_K\cdot{D_K}\cdot{M}+M\cdot{N}}{D_K\cdot{D_K}\cdot{M}\cdot{N}}=\frac{1}{N}+\frac{1}{D_K^2}$
depthwise separable 与标准卷积计算量之比为
$\frac{Param_{dws}}{Param_{sta}}=\frac{D_K\cdot{D_K}\cdot{M}\cdot{D_F}\cdot{D_F}+M\cdot{N}\cdot{D_F}\cdot{D_F}}{D_K\cdot{D_K}\cdot{M}\cdot{N}\cdot{D_F}\cdot{D_F}}=\frac{1}{N}+\frac{1}{D_K^2}$
标准卷积与depthwise seperable conv的结构：

2、shrinking hyperparameters：width multiplier、resolution multiplier

width multiplier：添加超参 $\alpha$ ，改变通道数，原来的输入通道数 $M$ 变为 $\alpha M$ ,输出通道数 $N$ 变为 $\alpha N$ 。这样使得计算量之比变为 $\frac{\alpha}{N}+\frac{\alpha^2}{D_K^2}$ ，参数量约减少为原来的 $\alpha^2$
resolution multiplier：添加超参 $\rho$ ，改变图像大小，原本的边长 $D_F$ 变为 $\rho D_F$ ，这样使得计算量之比变为 $\frac{\alpha \rho^2}{N}+\frac{\alpha^2 \rho^2}{D_K^2}$ ，参数量约减少为原来的 $\alpha^2 \rho^2$

分类精度-计算量：对数线性关系
在这里插入图片描述

分类精度-参数量

3、具体网络结构

网络结构以及每层的卷积核设置

不同类型卷积层的计算量以及参数量如下：

这里发现的问题是 $1\times1$ 卷积在整个网络中所占用的计算量以及参数量均为最大。这里的坑之后由ShuffleNet填上。