计算大幅降低,性能提升2.5%,这篇高效语义分割论文一定要看!


语义分割是计算机视觉领域的关键问题之一,更是图像、场景理解的基石性技术,在自动驾驶、无人机及穿戴计算设备应用中举足轻重,甚至在很大程度上直接影响了实际应用的效果,任何旧方法的优化、新方法的提出,都将对相关产业产生积极作用。正因如此,相关从业者对国际上重大CV峰会中关于语义分割的论文格外看重。

在本次的CVPR 2019峰会论文评选中,来自于全球知名高校、实验室、科技巨头的50余篇语义分割相关论文被CVPR 2019接受,其中来自华为方舟实验室的《Knowledge Adaptation for Efficient Semantic Segmentation》为我们提供了一种新的知识蒸馏和高效语义分割新方法。

论文原文链接:https://arxiv.org/abs/1903.04688

方法亮点

提出了一个为高效语义分割设计的知识蒸馏方法帮助教师网络输出重新解释到新表达的潜在域,使紧凑型学生网络更容易学习。

提出了一个亲和性知识蒸馏模块,帮助学生网络从教师网络捕获长期依赖。

验证了本方法在各种设置下的有效性,在不引入额外参数设置或计算量的情况下,本方法的学生模型性能提升2%;与大分辨率输出的模型相比,本方法在使用它们8%的FLOPS的情况下便可得到相同或更好的效果。

方法解析

在这里插入图片描述

本方法框架包含两个独立的网络:一个是输出大分辨特征的教师网络,另一个是输出较小分辨率特征的学生网络。知识转化的定义分为两个部分:一是通过自动编码将知识压缩成紧凑格式实现从教师网络到更具信息的压缩空间的知识转化迁移;二是从教师网络获取长期的依赖关系,这是比较困难的,具体做法如下:

1. 知识转化与自适应

得益于卷积计算,FCNs能在获取大量信息的同时维护信息视觉感受野,虽然性能有所提升,但计算成本也随之增长,并且随着输出步幅变小时,计算成本还将继续增加,具体如下图所示:

在这里插入图片描述

因此,作者团队建议使用具有高特征分辨率的大型教师模型来教授具有低特征分辨率的轻量级学生网络,并重新训练一个自动编码器来挖掘隐含的结构信息,将知识转换成更容易被学生网络理解和复制的格式。自动编码器将教师模型的最后一个卷积特征输入,由三层卷积层和对称反褶层组成。

2. 亲和蒸馏模块

通过从大型教师模型中提取大范围非本地依赖性,提出了一个新的亲和蒸馏模块。通过直接计算任意两个位置之间的互相关系来定义网络中的亲和力,而不管它们之间空间距离。结果,具有不同标签的像素将对具有相同标签的像素产生低响应和高响应。在实际测试中,没有亲和蒸馏模块的(b)列明显没有带有亲和蒸馏模块的©列对语义的响应敏感。

在这里插入图片描述

3. 训练过程

提出的方法设计教师和学生网络,教师网络经过预先训练,参数在训练过程中保持固定状态(如下图),学生网络则由标注信息的交叉熵损失、自适应损失以及亲和力损失三个损失函数加权后训练。

在这里插入图片描述

方法验证

为了验证提出方法的有效性,作者团队选择Pascal VOC、Cityscapes和Pascal Context三个数据集作为测试集,具体结果如下:

注:T为教师模型;S为学生模型;KA代表知识自适应;affinit代表亲和知识蒸馏模块。

1. 知识自适应和亲和知识蒸馏模块测试

在这里插入图片描述

2. 不同学生、教师网络结构测试

在这里插入图片描述

3. 不同知识蒸馏测试

在这里插入图片描述

结论

在这里插入图片描述
在这里插入图片描述
论文中提出的通过将高级特征转化为学生网络更容易理解学习的格式,提高了学生模型的性能,通过上述实验测试可以看出,在采用同标准的对比测试方法,本文论中提出的方法在不引入额外参数设定或计算的情况下,实现了大幅度提高学生模型的性能的同时大幅降低了计算成本。

猜你喜欢

转载自blog.csdn.net/weixin_43922139/article/details/91047001
今日推荐