《Quantization Mimic: Towards Very Tiny CNN for Object Detection》的阅读总结

前言:

{

    此文为论文《Quantization Mimic: Towards Very Tiny CNN for Object Detection》的阅读总结。

    此论文的主题是速度和结构的优化,而不是提高准确率;综合了两种方式:Quantization(量化)和Mimic(模仿)。

    论文地址:https://arxiv.org/pdf/1805.02152.pdf

}

 

正文:

{

    首先在第一节,论文介绍了目前4种优化方法:quantization,channel-wise(暂且叫它“逐通道”,MobileNet就用了这种方法),pruning(修剪或剪枝)和mimic。

    quantization和mimic有各自的缺点:quantization是面向像FPGA这种专门的设备(没有某些运算器或某些运算特别慢);mimic对网络结构也有要求——结构过于精简会导致表示能力(representation capacity)有限。

 

    第二节介绍了相关的网络,值得注意的是我在搜索迁移学习的时候也搜到过mimic,比如:https://arxiv.org/pdf/1804.10069.pdf。

 

    第三节是论文的主要部分。原始卷积网络(教师网络)的激活函数的输出被离散化,如图2。

   

    这里说只有原始卷积网络的输出被量化,所以我认为只有最后一部分的激活函数被离散了。

    图3说明了离散后的教师网络与学生网络的联系。

   

    训练学生网络所用的损失如下:

   

   

    (6)中Q()为量化(离散)函数,r(f)会把f转换到教师网络的输出特征图的大小。

    可以看到,总损失由5部分组成,前4部分分别为区域提议网络(region proposal networks)和检测器(R-FCN或Faster R-CNN)的分类误差和回归误差。(虽然论文这里没有说明,但我认为,区域提议网络的分类误差和回归误差是前景得分与包围框损失,检测器分类误差和回归误差为分类损失与包围框损失)。

    之后便是具体操作的描述。当使用VGG-1-4来产生特征图,使用R-FCN来检测时,所有的输入图像被转换为灰度图,并且其短的一边被设置成了600;前50000次训练迭代的学习率为0.001,后面30000次的为0.0001;λ为1;区域提议网络的生成框具有1种比例和4种面积;使用2000 个RoI;RoI的输出大小为3*3;使用了OHEM(training region-based object detectors with  online  hard  example  mining)。

 

    第四节描述了实验结果。在Titan X上速度(处理单边长1000的单张图像)和大小的对比结果如下:

   

    可以看到,本论文的方法在这两方面都有了质的提升,用在Titan X上完全可以实现实时检测。

    下面是在WIDER FACE数据集上检测结果的对比:

   

    可以看到,在选用极小模型的情况下,检测准确率没有显著下降(看到这个结果,我感觉,不管优不优化,目标识别本身还是有待改进)。

}

 

结语:

{

    这篇论文没有很深奥的理论和非常复杂的数学推理,算是很好理解。不过由于本人水平有限,可能会有理解错误,欢迎指点。

}

猜你喜欢

转载自blog.csdn.net/fish_like_apple/article/details/82594366