（一）论文地址：

《Searching for MobileNet V3》

（二）核心思想：

使用了两个黑科技：NAS 和 NetAdapt 互补搜索技术，其中 NAS 负责搜索网络的模块化结构，NetAdapt 负责微调每一层的 channel 数，从而在延迟和准确性中达到一个平衡；
提出了一个对于移动设备更适用的非线性函数 $h-swish[x]=x\frac{ReLU6(x+3)}{6}$ ；
提出了 $MobileNetV3-Large$ 和 $MobileNetV3-Small$ 两个新的高效率网络；
提出了一个新的高效分割（指像素级操作，如语义分割）的解码器（ $decoder$ ）；

（三）Platform-Aware NAS for Block-wise Search：

3.1 MobileNetV3-Large：

对于有较大计算能力的平台，作者提出了 MobileNetV3-Large，并使用了跟 MnanNet-A1 相似的基于 RNN 控制器和分解分层搜索空间的 NAS 搜索方法；

3.1 MobileNetV3-Small：

对于有计算能力受限制的平台，作者提出了 MobileNetV3-Small；

这里作者发现，原先的优化方法并不适用于小的网络，因此作者提出了改进方法；

用于近似帕累托最优解的多目标奖励函数定义如下：

$ACC(m)×[LAT(m)/TAR]^w$

其中 $m$ 是第 $m$ 个模型的索引， $ACC$ 是模型的准确率， $LAT$ 是模型的延迟， $TAR$ 是目标延迟；

作者在这里将权重因数 $w=-0.07$ 改成了 $w=-0.15$ ，最后得到了一个期望的种子模型（initial seed model）；

（四）NetAdapt for Layer-wise Search：

第二个黑科技就是 NetAdapt 搜索方法，用于微调上一步生成的种子模型；

NetAdapt 的基本方法是循环迭代以下步骤：

生成一系列建议模型（proposals），每个建议模型代表了一种结构改进，满足延迟至少比上一步的模型减小了 $\delta$ ，其中 $\delta=0.01|L|$ ， $L$ 是种子模型的延迟；
对于每一个建议模型，使用上一步的预训练模型，删除并随机初始化改进后丢失的权重，继续训练 $T$ 步来粗略估计建议模型的准确率，其中 $T=10000$ ；
根据某种度量，选取最合适的建议模型，直到达到了目标延迟 $TAR$ ；

作者将度量方法改进为最小化（原文是最大化，感觉是笔误）： $\frac{\Delta Acc}{\Delta latency}$

其中建议模型的提取方法为：

减小 Expansion Layer 的大小；
同时减小 BottleNeck 模块中的前后残差项的 channel 数；

（五）Efficient Mobile Building Blocks：

在这里插入图片描述
作者在 BottleNet 的结构中加入了SE结构，并且放在了depthwise filter之后；

由于SE结构会消耗一定的计算时间，所以作者在含有SE的结构中，将 Expansion Layer 的 channel 数变为原来的1/4；
在这里插入图片描述
其中 SE 模块首先对卷积得到的特征图进行 Squeeze 操作，得到特征图每个 channel 上的全局特征，然后对全局特征进行 Excitation 操作，学习各个 channel 间的关系，从而得到不同channel的权重，最后乘以原来的特征图得到最终的带有权重的特征；