知识蒸馏相关论文目录导读:
- Geoffry Hinton —— Distilling the knowledge in a neural network
- Saurabh Gupta —— Cross Model Distillation for Supervision Transfer
- Adriana Romero —— Hints for Thin Deep Nets
——————————————————————————————————————————
《Cross Model Distillation for Supervision Transfer》
Saurabh Gupta
先放一个论文里网络的图片:
此论文的成果:完成了一个由ImageNet上网络对从有监督学习到无监督学习的学习迁移,同时可以完成训练网络到测试网络的模型压缩(可以由VGG-VGG,也可以由VGG-AlexNet)。
需要注意的训练细节:
- 数据集:NYUD2,由paired images组成一对一对的数据集。对Teacher网络使用RGB-D图片,具有深度信息以及instance级别的标签分类;对Student网络使用Paired Depth Image,只具有深度信息。
- 两个function:(1)transformation funtion t:对于Teacher和Student网络结构不同时,从中间取出的网络层channel和size可能会出现不同的情况,需要从Student到Teacher做映射,完成feature map的channle、size匹配。(2)loss function f:t函数映射后,loss function为大网络的Feature map与小网络的Feature map的L2 instance。
- loss层选择:中间层蒸馏效果更好,论文选在pool5后。
- 网络选择:VGG——AlexNet,AlexNet——AlexNet:fine-tuning(only train fc parameters)