知识蒸馏(Distillation)相关论文阅读(2)——Cross Model Distillation for Supervision Transfer

知识蒸馏相关论文目录导读:

  1. Geoffry Hinton —— Distilling the knowledge in a neural network
  2. Saurabh Gupta —— Cross Model Distillation for Supervision Transfer
  3. Adriana Romero —— Hints for Thin Deep Nets


——————————————————————————————————————————

《Cross Model Distillation for Supervision Transfer》

Saurabh Gupta

    先放一个论文里网络的图片:


此论文的成果:完成了一个由ImageNet上网络对从有监督学习到无监督学习的学习迁移,同时可以完成训练网络到测试网络的模型压缩(可以由VGG-VGG,也可以由VGG-AlexNet)。


需要注意的训练细节:

  1. 数据集:NYUD2,由paired images组成一对一对的数据集。对Teacher网络使用RGB-D图片,具有深度信息以及instance级别的标签分类;对Student网络使用Paired Depth Image,只具有深度信息。
  2. 两个function:(1)transformation funtion t:对于Teacher和Student网络结构不同时,从中间取出的网络层channel和size可能会出现不同的情况,需要从Student到Teacher做映射,完成feature map的channle、size匹配。(2)loss function f:t函数映射后,loss function为大网络的Feature map与小网络的Feature map的L2 instance。    
  3. loss层选择:中间层蒸馏效果更好,论文选在pool5后。
  4. 网络选择:VGG——AlexNet,AlexNet——AlexNet:fine-tuning(only train fc parameters)

猜你喜欢

转载自blog.csdn.net/Lucifer_zzq/article/details/79718906
今日推荐