Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation论文解读

前言

许久没写博客,今天趁着假期最后一天,分享下今天看到的一篇关于自蒸馏的论文。

题目:Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation
地址:https://arxiv.org/abs/2110.00329
github:https://github.com/zhengli427/TESKD/

主要思路

之前的蒸馏方法基本都是teacher监督student或者多个student之间互相监督,BYOT论文中,作者将student拆分为多个block,每个block都单独接一个fc,计算celoss,相当于希望每个block都可以学到更加鲁棒的feature(当然,浅层的feature最终的分类效果肯定是相对比较差的)。

TESKD,也就是这篇博客的主角中,作者借鉴了BYOT以及FPN的结构,使得模型训练以一种自蒸馏的方式呈现出现,不同层级之间的feature也会进行融合并互相监督,融合之后的feature也会接avgpool以及fc,最终也是具有分类能力的,融合的这个过程进一步提升了feature的鲁棒性,也带来了更为优秀的分类结果

结构框图

下面是TESKD自蒸馏算法的结构框图,这其中其实只有一个网络,也就是我们最终用于部署的网络,但是这里为了区分,还是将其称之为教师网络,T1~T4是区分出来的4个block,这对于ResNet等比较标准的网络来说都是比较好实现的(不同的Res sta

猜你喜欢

转载自blog.csdn.net/u012526003/article/details/120641921
今日推荐