系列论文阅读之知识蒸馏(二)《FitNets : Hints for Thin Deep Nets》

本文成果:

从一个wide and deep的网路蒸馏成一个thin and deeper的网络。

主要的方法如下图所示:

实际上是在KD的基础上,增加了一个中间层的知识蒸馏。

以下是KD的主要方法:


训练要点:

两个loss function:

(1)Teacher网络的某一中间层的权值为Wt=Whint,Student网络的某一中间层的权值为Ws=Wguided。使用一个映射函数Wr来使得Wguided的维度匹配Whint,得到Ws'。其中对于Wr的训练使用MSEloss:

(2) 另外一个是改造的softmax loss(具体见Hinton的论文):

发布了61 篇原创文章 · 获赞 12 · 访问量 6万+

猜你喜欢

转载自blog.csdn.net/liqiming100/article/details/88935353